バイアス-バリアンス (bias-variance)

モデル \(Y=f(X)+\varepsilon\) から訓練サンプル集合 \(T\) が生成されたとする. ただし,\(\varepsilon\) は正規分布 \(N(0,\sigma^2)\) に従う真のエラー項. この訓練サンプル集合から \(\hat{f}(x)\) を推定したとする.

このとき,点 \(x\) の汎化誤差を最小2乗で測ると \[\mathrm{E}[(Y-\hat{f}(x))^2|X=x]=\sigma^2+\Bigl(\mathrm{E}_T[\hat{f}(x)]-f(x)\Bigr)^2+{\mathrm{E}_T}\bigl[(\hat{f}(x)-\mathrm{E}_T[\hat{f}(x)])^2\bigr]\] \[=\sigma^2+{\mathrm{Bias}}^2[\hat{f}(x)]+\mathrm{Var}_T[\hat{f}(x)]\] ただし,\(\mathrm{E}\) は真の\(x\)の分布についてとった期待値, \(\mathrm{E}_T\) はいろいろな訓練サンプル集合上の分布についてとった平均.

  • 第1項は,削減不能な誤差
  • 第2項は,真の平均 \(f(x)\) と推定値の期待値 \(\mathrm{E}_T[\hat{f}(x)]\) の差であるバイアス(bias)の2乗.このモデルを使って推定したときの平均的な推定値と真の値との差を測る.
  • 第3項は,訓練サンプルの違いに由来するランダムさを表すバリアンス.すなわち,特定のサンプルに基づいた推定値の,それらをいろいろなサンプルについてとった期待値の周りで求めた分散.

第2項と第3項は推定に使ったモデルで変えることができるが,次のトレードオフがある.

  • 線形など単純なモデルでは,バイアスは大きくなるが,バリアンスは小さくなる
  • 高次の複雑なモデルでは,バイアスは小さくなるが,バリアンスは大きくなる

このようなトレードオフがあるので,バイアスとバリアンスの和が小さくなるようにモデルを選ぶ必要がある.

--しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-12-16 (木) 15:04:36 (2184d)