- 2乗誤差を最小にするパラメータを求める方法.
線形モデルの最小2乗法はデータ解析で一番最初に覚える手法だが,いろいろな手法はこれを出発点として考えることができる点で重要である.
- 確率モデルとしては,出力に乗る誤差が正規分布のときの最尤推定になっている.
サンプル数が少ないときはオーバーフィットを避けるために正則化を行う.
2次の正則化なら簡単に求まり,リッジ回帰と呼ばれる. 1次の正則化の場合は Lasso と呼ばれるが,こちらは2次計画問題を解く必要がある.
- カーネル化して正則化すればGaussian過程になる.
- 入力データ \(X : N \times (p+1)\) 行列 (\(X\) の一番右の列はすべて 1),
\(Y : N \times k\) 行列 (サンプル数が \(N)\) のとき,
\(Y = X B + E\) (\(E\) は誤差) の最小2乗解は
\[B = (X^\top X)^{-1} X^\top Y\]
となり,リッジ回帰では\(B = (X^\top X + \lambda I)^{-1} X^\top Y\)となる.
(\(\lambda\)は正則化定数)
- 最小2乗解の改良には正則化のほか,Rao-Blackwell 化などがある.
- 最小2乗法では通常出力に乗る誤差を仮定するが,入力と出力の両方に誤差が乗っている場合はセミパラメトリック推定と関連した問題となる.
--あかほ
関連項目†
リンク集†
関連文献†
Last-modified: 2010-02-11 (木) 16:12:52