汎化誤差

汎化誤差 (generalization error)†

汎化誤差 (generalization error)とは，学習して獲得した識別器などの，サンプルの母集団に対する誤差．期待損失 (expected risk) ともいう．

学習に使った訓練集合をテスト集合にして求めた誤差は，いわば答えをカンニングしたようなものなので，汎化誤差より一般に過小評価になる．

-- しましま

式で書けば，汎化誤差とは，パラメータθをもつ学習機械の誤差 \(R(x;\theta)\) を母集団の分布 \(q(x)\) で平均した \[\int q(x) R(x;\theta) dx\] のことである．
例えば， x が入力 u, 出力 v で，学習機械が入出力関数 \(f(v;\theta)\) のとき，２乗誤差が定める汎化誤差は \[\int\int (v - f(u;\theta))^2 q(v\mid u) q(u) dv du\] である．
学習機械が確率モデル \(p(x;\theta)\) で， \(R(x;\theta)\) として負の対数尤度 \(-\log p(x;\theta)\) をとれば，汎化誤差は \[-\int q(x) \log p(x;\theta) dx\] となり，これにθによらない定数 \(\int q(x)\log q(x)dx\) を足したものは母集団と学習機械の間のカルバックライブラーダイバージェンス \[KL(q(x)||p(x;\theta)) = \int q(x)\log\frac{q(x)}{p(x;\theta)}dx\] となる．
モデル選択，正則化などは汎化誤差ができるだけ小さくなるようにするための方法である．
学習理論といえば汎化誤差の理論のことである．．．といっても過言ではない