統計では,標本はランダムに選択されたと仮定することが多い.しかし,現実には,電話調査で電話に出ない人のパターンはランダムではないといった問題によって,そうした調査が難しい場合もある.このように標本がランダムではない,なんらかの偏りのことを標本選択バイアス (sample selection bias)という.
そこで,Heckman は,標本選択バイアスがある場合での,回帰分析の補正方法を示した (基本文献).この研究に対して2000年にノーベル経済学賞を授与されている.
機械学習の分野では,分類問題について標本選択について論じた(文献1)が著名なので,この文献を紹介する.
普通の分類問題の事例は入出力の対 \((\mathbf{x},y)\).さらに,母集団からサンプルされるなら \(s=1\),でなければ \(0\) の変数を考える.この \(s\) の入出力の依存性により次の四つに分類できる.
そこで,ここでは二つ目の場合について考える.
学習事例が増えたとき,学習器の出力が \(\Pr(y|\mathbf{x})\) のみに依存する分類器を局所的であるといい,\(\Pr(y|\mathbf{x})\) と \(\mathbf{x}\) の両方に依存するものを大域的であるという.局所的学習器はバイアスの影響を受けないが,大域的学習器は影響を受ける.
局所的な学習器としては,(フルの)ベイズ分類器,ロジスティック回帰,ソフトマージンなしのSVMなどがある. 一方,単純ベイズ,ID3 や CART などの決定木,ソフトマージンありのSVMは大域的分類器である.
-- しましま