最尤推定の変更点

追加された行はこの色です。
削除された行はこの色です。
最尤推定へ行く。
* 最尤推定 (maximum likelihood estimation; MLE) [#ad8ff2ce]

訓練サンプル \(X=\{x_1,x_2,\ldots,x_N\}\) が独立同分布でサンプリングされたとする．
このとき，データの発生源の確率分布を，確率モデル \(f(x;\theta)\) が近似するようにパラメータ \(\theta\) を推定する方法．

まず次の''尤度 (likelihood)'' (または，尤度関数 (likelihood function)) を考える．
\[\mathcal{L}(X;\theta)=\prod_{i=1}^N f(x_i;\theta)\]
これは訓練サンプルが生じる確率に相当．

''最尤推定'' (maximum likelihood estimation; [[MLE]])，または最尤法 (maximum likelihood method) とは，この尤度を最大にする，すなわち，訓練サンプル集合が生じる確率を最大にするパラメータ値を，パラメータの推定量とする方法．
これは頻度主義の考えに基づいている．
\[\hat{\theta}=\arg\max_{\theta} \mathcal{L}(X;\theta)\]

ここで，知ることのできない真の分布を \(g(x)\) で表す．この真の分布から，モデルによる分布までの距離(非類似度)をKullback-Leiblerダイバージェンスで測ると
\[D_{KL}(g(x)||f(x;\theta)) = \int g(x)\log\frac{g(x)}{f(x;\theta)}dx=\int g(x)\log g(x) dx - \int g(x) \log f(x;\theta) dx\]
ここで第1項は定数，第2項はモデルの分布の期待値 \(\mathrm{E}_g[\log f(x;\theta)]\) に等しい．ここで期待値を訓練サンプルでの平均値で近似すると
\[\mathrm{E}_g[\log f(x;\theta)]\approx \frac{1}{N} \sum_{i=1}^N \log f(x;\theta)=\frac{1}{N}\log\prod_{i=1}^N f(x_i;\theta)=\frac{1}{N}\log\mathcal{L}(X;\theta)\]
のように対数尤度となる．よって最尤推定は，分布との距離をKullback-Leiblerダイバージェンス測ったとき，真の分布に最も近いモデルの分布を見つけているといえる．

>-- しましま

**関連項目 [#n61198c5]

//英語や同義語のあとに，#brで区切って関連する項目をリストしてください．

-[[maximum likelihood estimation]]
-[[MLE]]
-[[maximum likelihood]]
#br
-[[尤度]]
-[[likelihood]]
#br
-[[教師あり学習]]
-[[教師なし学習]]
-[[Kullback-Leiblerダイバージェンス]]
-[[MAP推定]]
-[[ベイズ推定]]
#br
-[[検索:最尤推定 尤度]]

**リンク集 [#r9e11e08]

//関連するWWW資源があればリンクしてください．
-[[Wikipedia:Maximum_likelihood]]
-[[MathWorld:MaximumLikelihood]]
-[[PlanetMath:MaximumLikelihoodEstimate]]

**関連文献 [#e4bd01ad]

//この%項目%に関連する書籍や論文を紹介してください．
-[[Book/人工知能学事典]]：14-10章
-[[Book/わかりやすいパターン認識]]：4.2章
-[[Book/Pattern Recognition and Machine Learning]] p.23
-[[Book/データマイニングの基礎]] 5.3.1節
-[[Book/フリーソフトでつくる音声認識システム]] 7.2節
-[[Book/The Elements of Statistical Learning]]：8.2.2章
-[[Book/Machine Learning]]：6.4章
最尤推定 の変更点