#author("2020-06-24T06:22:34+00:00","default:ibisforest","ibisforest")
* バイアス-バリアンス (bias-variance) [#v0c627e2]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

モデル \(Y=f(X)+\varepsilon\) から訓練サンプル集合 \(T\) が生成されたとする.
ただし,\(\varepsilon\) は正規分布 \(N(0,\sigma^2)\) に従う真のエラー項. 
この訓練サンプル集合から \(\hat{f}(x)\) を推定したとする.

このとき,点 \(x\) の汎化誤差を最小2乗で測ると
\[\mathrm{E}[(Y-\hat{f}(x))^2|X=x]=\sigma^2+\Bigl(\mathrm{E}_T[\hat{f}(x)]-f(x)\Bigr)^2+{\mathrm{E}_T}\bigl[(\hat{f}(x)-\mathrm{E}_T[\hat{f}(x)])^2\bigr]\]
\[=\sigma^2+{\mathrm{Bias}}^2[\hat{f}(x)]+\mathrm{Var}_T[\hat{f}(x)]\]
ただし,\(\mathrm{E}\) は真の\(x\)の分布についてとった期待値,
\(\mathrm{E}_T\) はいろいろな訓練サンプル集合上の分布についてとった平均.

- 第1項は,削減不能な誤差
- 第2項は,真の平均 \(f(x)\) と推定値の期待値 \(\mathrm{E}_T[\hat{f}(x)]\) の差であるバイアス(bias)の2乗.このモデルを使って推定したときの平均的な推定値と真の値との差を測る.
- 第3項は,訓練サンプルの違いに由来するランダムさを表すバリアンス.すなわち,特定のサンプルに基づいた推定値の,それらをいろいろなサンプルについてとった期待値の周りで求めた分散.

第2項と第3項は推定に使ったモデルで変えることができるが,次のトレードオフがある.
- 線形など単純なモデルでは,バイアスは大きくなるが,バリアンスは小さくなる
- 高次の複雑なモデルでは,バイアスは小さくなるが,バリアンスは大きくなる

このようなトレードオフがあるので,バイアスとバリアンスの和が小さくなるようにモデルを選ぶ必要がある.

>--しましま

上の記述で、
- 真の平均 \(f(x)\) とありますが、\(f(x)\) は真の平均というより、真の関数ではないでしょうか?真の値というのも同様に違和感があります。
- 同様に、推定値との記述も、推定量の方がより適しているのではないだろうかと思われます。
>--ILBMW
-- 回帰モデルとしては 平均 \(f(x)\) にガウスノイズが載ってて,まとめて書くと \(N( f(x), \sigma^2 )\) みたいな感じになるので,どちらでもいけるようにおもいます.推定値と推定量はどちらも数値ですしあまり差はないように私は思っています. -- しましま

**関連項目 [#rf6c7706]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.

-[[bias-variance]]
#br
-[[汎化能力]]
-[[汎化誤差]]
-[[経験誤差]]
-[[分散]]
-[[モデル選択]]
-[[最小2乗法]]
-[[線形回帰]]
#br
-[[検索:バイアス-バリアンス]]

**リンク集 [#b1887fe4]

**関連文献 [#pf869a54]

//この%項目%に関連する書籍や論文を紹介してください.
-[[Book/The Elements of Statistical Learning]]:2.9章
-[[Book/Machine Learning]] 5.3.4章
-クラス分類でのバイアス-バリアンスを考え,アンサンブル学習をバリアンスの減少させる操作と考える~
L.Breiman "Arcing Classifiers" The Annals of Statistics, vol.26, no.3, pp.801-849 (1998)~
[[GoogleScholarAll:Arcing Classifiers]]
-[[Book/Pattern Recognition and Machine Learning]] 3.2章
-[[Book/Pattern Classification]] 9.3節

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS