アンサンブル学習

アンサンブル学習 (ensemble learning)†

ランダムに解を出力する予測器，すなわち，予測精度が最悪の予測器よりは，高い精度で予測できる弱学習器 (weak learner)を組み合わせて高精度の学習器を構成する方法．バギングやブースティングといった手法が著名．

初期の研究ではクラス分類だけだったが，回帰やクラスタリングにも適用されている．

文献1でのバイアス-バリアンスの観点からの議論．†

訓練集合 \(T\) から学習した分類器 \(C(X;T)\) の，入出力対 \(X,Y\) の分布に対する誤差は \[PE(C(X;T))=\Pr_{X,Y}[C(X;T)\ne Y]\]

入力に対する真のクラス条件付き分布 \(\Pr[Y|X]\) を用いた最適なベイズ分類器を \(C^\ast(X)\) と記す．このベイズ分類器の誤差を \(PE(C^\ast)\) とする． \[PE(C^\ast(X))=\Pr_{X,Y}[C^\ast(X)\ne Y]\]

バギングで得る凝集分類器 \(C_A(X)\) は，あらゆる \(T\) について分類器 \(C(X;T)\) を学習し，それらの出力の多数決をとったもの(を近似する)と考える．

ここで，分類器 \(C(x;\cdot)\) が，入力 \(x\) で，不偏であるとは，凝集分類器とベイズ分類器の出力が \(x\) で一致する \(C_A(x)=C^\ast(x)\) こと．これは，\(x\) での正解クラスの条件付き確率が \(C_A(x)\) でも\(C^\ast(x)\) でも他のクラスより大きいということで，クラスの条件付き確率が二つの分類器の間で一致している必要はない．

全ての入力 \(X\) 中で，不偏な入力の部分集合をunbiased集合 \(U\)，残りの入力をbiased集合 \(B\) とする．分類器 \(C(X;\cdot)\) のバイアス \(Bias(C)\) とバリアンス \(Var(C)\) を次式で定義 \[Bias(C)=\Pr_{X,Y}[C^\ast(X)\ne Y;X\in B] - \mathrm{E}_T[\Pr_{X,Y}[C(X;T)\ne Y;X\in B]]\] \[Var(C)=\Pr_{X,Y}[C^\ast(X)\ne Y;X\in U] - \mathrm{E}_T[\Pr_{X,Y}[C(X;T)\ne Y;X\in U]]\]

すると，バイアス-バリアンスの関係が成立 \[PE(C)=PE(C^\ast)+Bias(C)+Var(C)\] 第1項は，本質的に減らせない誤差，残りはバイアスとバリアンスとなり，2乗誤差と同様の解釈ができるようになる．

\(PE(C_A)\) を考えると，不偏性の定義からバリアンスが0になる．よってバギングはバリアンスを減らす手法とみなせる．
ブースティングは，低バイアス・高バリアンスの弱学習器を使って，誤差の大きな点での重みを増やすことで，より積極的にバリアンスを減らそうとするアプローチと解釈できる．
Fisher判別分析のような線形の分類器は，高バイアス・低バリアンスになるため，弱学習器として用いても予測精度を減らすのにはあまり役立たない．