* アンサンブル学習 (ensemble learning) [#q3c6f53d]

ランダムに解を出力する予測器,すなわち,予測精度が最悪の予測器よりは,高い精度で予測できる''弱学習器 (weak learner)''を組み合わせて高精度の学習器を構成する方法.
バギングやブースティングといった手法が著名.

初期の研究ではクラス分類だけだったが,回帰やクラスタリングにも適用されている.

*** 文献1でのバイアス-バリアンスの観点からの議論. [#v213c3e0]

まず,クラス分類における不偏性とバイアス-バリアンスを次のように定義((回帰の2乗誤差の場合とは異なり,分類問題のバイアスやバリアンスの定義にはまだ議論がある.)).

訓練集合 \(T\) から学習した分類器 \(C(X;T)\) の,入出力対 \(X,Y\) の分布に対する誤差は
\[PE(C(X;T))=\Pr_{X,Y}[C(X;T)\ne Y]\]

入力に対する真のクラス条件付き分布 \(\Pr[Y|X]\) を用いた最適なベイズ分類器を \(C^\ast(X)\) と記す.このベイズ分類器の誤差を \(PE(C^\ast)\) とする.
\[PE(C^\ast(X))=\Pr_{X,Y}[C^\ast(X)\ne Y]\]

バギングで得る凝集分類器 \(C_A(X)\) は,あらゆる \(T\) について分類器 \(C(X;T)\) を学習し,それらの出力の多数決をとったもの(を近似する)と考える.

ここで,分類器 \(C(x;\cdot)\) が,入力 \(x\) で,不偏であるとは,凝集分類器とベイズ分類器の出力が \(x\) で一致する \(C_A(x)=C^\ast(x)\) こと.
これは,\(x\) での正解クラスの条件付き確率が \(C_A(x)\) でも\(C^\ast(x)\) でも他のクラスより大きいということで,クラスの条件付き確率が二つの分類器の間で一致している必要はない.

全ての入力 \(X\) 中で,不偏な入力の部分集合をunbiased集合 \(U\),残りの入力をbiased集合 \(B\) とする.
分類器 \(C(X;\cdot)\) のバイアス \(Bias(C)\) とバリアンス \(Var(C)\) を次式で定義
\[Bias(C)=\Pr_{X,Y}[C^\ast(X)\ne Y;X\in B] - \mathrm{E}_T[\Pr_{X,Y}[C(X;T)\ne Y;X\in B]]\]
\[Var(C)=\Pr_{X,Y}[C^\ast(X)\ne Y;X\in U] - \mathrm{E}_T[\Pr_{X,Y}[C(X;T)\ne Y;X\in U]]\]

すると,バイアス-バリアンスの関係が成立
\[PE(C)=PE(C^\ast)+Bias(C)+Var(C)\]
第1項は,本質的に減らせない誤差,残りはバイアスとバリアンスとなり,2乗誤差と同様の解釈ができるようになる.

- \(PE(C_A)\) を考えると,不偏性の定義からバリアンスが0になる.よってバギングはバリアンスを減らす手法とみなせる.
- ブースティングは,低バイアス・高バリアンスの弱学習器を使って,誤差の大きな点での重みを増やすことで,より積極的にバリアンスを減らそうとするアプローチと解釈できる.
- Fisher判別分析のような線形の分類器は,高バイアス・低バリアンスになるため,弱学習器として用いても予測精度を減らすのにはあまり役立たない.

> --しましま

**関連項目 [#ubad9009]

-[[ensemble learning]]
#br
-[[弱学習器]]
-[[weak learner]]
#br
-[[ブースティング]]
-[[バギング]]
-[[arcing]]
-[[ランダムフォレスト]]
-[[誤り訂正出力符号]]
-[[クラスタアンサンブル]]
#br
-[[検索:アンサンブル学習 ensemble]]

** リンク集 [#f0bd15f9]

-[[boosting.org>http://www.boosting.org/]]:チュートリアル,論文集,ソフトウェア
#br
-[[Wikipedia:Category:Ensemble_learning]]

** 関連文献 [#x319a2c2]

-文献1:バイアス-バリアンスの観点からバギングとブースティングを比較.~
L.Breiman "Arcing Classifiers" The Annals of Statistics, vol.26, no.3, pp.801-849 (1998)~
[[GoogleScholarAll:Arcing Classifiers]]
-文献2:バギングとブースティングの比較実験~
J.R.Quinlan, "Bagging, Boosting, and C4.5", AAAI1996~
[[GoogleScholarAll:Bagging, Boosting, and C4.5]]
-文献3:バギングとブースティングの比較実験~
T.G.Dietterich, "An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization", Machine Learning, vol.40, pp.139-157 (2000)~
[[GoogleScholarAll:An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization]]
-[[Book/Pattern Recognition and Machine Learning]] 14.1〜14.3節
-[[Book/Data Mining - Concepts and Techniques]] 6.14節
-[[Book/Pattern Classification]] 9.5節
-[[Book/The Elements of Statistical Learning]] 8.7節, 10章
-[[Book/Data Mining - Practical Machine Learning Tools and Techniques]] 7.5節
-[[Book/パターン認識と学習の統計学(統計科学のフロンティア6)]] III部
-[[Book/学習システムの理論と実現]] 6章
-[[Book/データマイニングの基礎]] 3.1節
-[[Book/人工知能学事典]] 14-27節
-ブースティングの基本から始まるが,後半は濃くなってゆく~
金森 敬文, 畑埜 晃平, 渡辺 治, 小川 英光 "ブースティング - 学習アルゴリズムの設計技法" 森北出版 (2006)~
Amazon.co.jpへのリンク:&amazon(4627813317);

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS