標本選択バイアス

標本選択バイアス (sample selection bias)†

統計では，標本はランダムに選択されたと仮定することが多い．しかし，現実には，電話調査で電話に出ない人のパターンはランダムではないといった問題によって，そうした調査が難しい場合もある．このように標本がランダムではない，なんらかの偏りのことを標本選択バイアス (sample selection bias)という．

そこで，Heckman は，標本選択バイアスがある場合での，回帰分析の補正方法を示した (基本文献)．この研究に対して2000年にノーベル経済学賞を授与されている．

機械学習の分野では，分類問題について標本選択について論じた(文献1)が著名なので，この文献を紹介する．

普通の分類問題の事例は入出力の対 \((\mathbf{x},y)\)．さらに，母集団からサンプルされるなら \(s=1\)，でなければ \(0\) の変数を考える．この \(s\) の入出力の依存性により次の四つに分類できる．

\(s\) が \(\mathbf{x}\) と \(y\) の両方に対して独立なら，バイアスのない普通の状況
\(s\) が条件付独立 \(\Pr(s|\mathbf{x},y)=P(s|\mathbf{x})\) であるとき，選択事例にはバイアスがあるが，それは \(\mathbf{x}\) のみに依存
\(s\) が条件付独立 \(\Pr(s|\mathbf{x},y)=P(s|y)\) であるとき，ラベル \(y\) の事前分布の変化であり，これを修正すればよい．
\(\mathbf{x}\)，\(y\)，\(s\) のどの間も独立でない場合は，追加情報が学習には必要．

そこで，ここでは二つ目の場合について考える．

学習事例が増えたとき，学習器の出力が \(\Pr(y|\mathbf{x})\) のみに依存する分類器を局所的であるといい，\(\Pr(y|\mathbf{x})\) と \(\mathbf{x}\) の両方に依存するものを大域的であるという．局所的学習器はバイアスの影響を受けないが，大域的学習器は影響を受ける．

局所的な学習器としては，（フルの）ベイズ分類器，ロジスティック回帰，ソフトマージンなしのSVMなどがある．一方，単純ベイズ，ID3 や CART などの決定木，ソフトマージンありのSVMは大域的分類器である．