* 標本選択バイアス (sample selection bias) [#j14b5be3]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

統計では,標本はランダムに選択されたと仮定することが多い.しかし,現実には,電話調査で電話に出ない人のパターンはランダムではないといった問題によって,そうした調査が難しい場合もある.このように標本がランダムではない,なんらかの偏りのことを''標本選択バイアス (sample selection bias)''という.

そこで,Heckman は,標本選択バイアスがある場合での,回帰分析の補正方法を示した (基本文献).この研究に対して2000年にノーベル経済学賞を授与されている.

機械学習の分野では,分類問題について標本選択について論じた(文献1)が著名なので,この文献を紹介する.

普通の分類問題の事例は入出力の対 \((\mathbf{x},y)\).さらに,母集団からサンプルされるなら \(s=1\),でなければ \(0\) の変数を考える.この \(s\) の入出力の依存性により次の四つに分類できる.
+ \(s\) が \(\mathbf{x}\) と \(y\) の両方に対して独立なら,バイアスのない普通の状況
+ \(s\) が条件付独立 \(\Pr(s|\mathbf{x},y)=P(s|\mathbf{x})\) であるとき,選択事例にはバイアスがあるが,それは \(\mathbf{x}\) のみに依存
+ \(s\) が条件付独立 \(\Pr(s|\mathbf{x},y)=P(s|y)\) であるとき,ラベル \(y\) の事前分布の変化であり,これを修正すればよい.
+ \(\mathbf{x}\),\(y\),\(s\) のどの間も独立でない場合は,追加情報が学習には必要.

そこで,ここでは二つ目の場合について考える.

学習事例が増えたとき,学習器の出力が \(\Pr(y|\mathbf{x})\) のみに依存する分類器を局所的であるといい,\(\Pr(y|\mathbf{x})\) と \(\mathbf{x}\) の両方に依存するものを大域的であるという.局所的学習器はバイアスの影響を受けないが,大域的学習器は影響を受ける.

局所的な学習器としては,(フルの)ベイズ分類器,ロジスティック回帰,ソフトマージンなしの[[SVM]]などがある.
一方,単純ベイズ,[[ID3]] や [[CART]] などの決定木,ソフトマージンありの[[SVM]]は大域的分類器である.

> -- しましま

** 関連項目 [#b1b957f1]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.
-[[sample selection bias]]
#br
-[[帰納転移]]
-[[共変量シフト]]
#br
-[[検索:標本選択バイアス]]

** リンク集 [#wede4128]

//関連するWWW資源があればリンクしてください.
-[[Wikipedia:Selection bias]]
-[[Wikipedia:Heckman correction]]

** 関連文献 [#d2e897aa]

//この%項目%に関連する書籍や論文を紹介してください.

-基本文献~
J.Heckman "Sample Selection Bias as a Specification Error" Econometrica, vol.47 (1979)~
[[GoogleScholarAll:Sample Selection Bias as a Specification Error]]
-文献1~
B.Zadrozny "Learning and Evaluating Classifiers under Sample Selection Bias" ICM2004L~
[[GoogleScholarAll:Learning and Evaluating Classifiers under Sample Selection Bias]]
- W.Fan & M.Sugiyama [[Sample Selection Bias - Covariate Shift: Problems, Solutions, and Applications>http://www.weifan.info/tutorial.htm#Sample%20Selection%20Bias%20-%20Covariate%20Shift:%20Problems,%20Solutions,%20and%20Applications]] ICDM2008 tutorial~
[[GoogleScholarAll:Sample Selection Bias - Covariate Shift: Problems, Solutions, and Applications]]

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS