標本選択バイアス (sample selection bias)

統計では,標本はランダムに選択されたと仮定することが多い.しかし,現実には,電話調査で電話に出ない人のパターンはランダムではないといった問題によって,そうした調査が難しい場合もある.このように標本がランダムではない,なんらかの偏りのことを標本選択バイアス (sample selection bias)という.

そこで,Heckman は,標本選択バイアスがある場合での,回帰分析の補正方法を示した (基本文献).この研究に対して2000年にノーベル経済学賞を授与されている.

機械学習の分野では,分類問題について標本選択について論じた(文献1)が著名なので,この文献を紹介する.

普通の分類問題の事例は入出力の対 \((\mathbf{x},y)\).さらに,母集団からサンプルされるなら \(s=1\),でなければ \(0\) の変数を考える.この \(s\) の入出力の依存性により次の四つに分類できる.

  1. \(s\) が \(\mathbf{x}\) と \(y\) の両方に対して独立なら,バイアスのない普通の状況
  2. \(s\) が条件付独立 \(\Pr(s|\mathbf{x},y)=P(s|\mathbf{x})\) であるとき,選択事例にはバイアスがあるが,それは \(\mathbf{x}\) のみに依存
  3. \(s\) が条件付独立 \(\Pr(s|\mathbf{x},y)=P(s|y)\) であるとき,ラベル \(y\) の事前分布の変化であり,これを修正すればよい.
  4. \(\mathbf{x}\),\(y\),\(s\) のどの間も独立でない場合は,追加情報が学習には必要.

そこで,ここでは二つ目の場合について考える.

学習事例が増えたとき,学習器の出力が \(\Pr(y|\mathbf{x})\) のみに依存する分類器を局所的であるといい,\(\Pr(y|\mathbf{x})\) と \(\mathbf{x}\) の両方に依存するものを大域的であるという.局所的学習器はバイアスの影響を受けないが,大域的学習器は影響を受ける.

局所的な学習器としては,(フルの)ベイズ分類器,ロジスティック回帰,ソフトマージンなしのSVMなどがある. 一方,単純ベイズID3CART などの決定木,ソフトマージンありのSVMは大域的分類器である.

-- しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:12:56