* 最尤推定 (maximum likelihood estimation; MLE) [#ad8ff2ce]

訓練サンプル \(X=\{x_1,x_2,\ldots,x_N\}\) が独立同分布でサンプリングされたとする.
このとき,データの発生源の確率分布を,確率モデル \(f(x;\theta)\) が近似するようにパラメータ \(\theta\) を推定する方法.

まず次の''尤度 (likelihood)'' (または,尤度関数 (likelihood function)) を考える.
\[\mathcal{L}(X;\theta)=\prod_{i=1}^N f(x_i;\theta)\]
これは訓練サンプルが生じる確率に相当.

''最尤推定'' (maximum likelihood estimation; [[MLE]]),または最尤法 (maximum likelihood method) とは,この尤度を最大にする,すなわち,訓練サンプル集合が生じる確率を最大にするパラメータ値を,パラメータの推定量とする方法.
これは頻度主義の考えに基づいている.
\[\hat{\theta}=\arg\max_{\theta} \mathcal{L}(X;\theta)\]

ここで,知ることのできない真の分布を \(g(x)\) で表す.この真の分布から,モデルによる分布までの距離(非類似度)をKullback-Leiblerダイバージェンスで測ると
\[D_{KL}(g(x)||f(x;\theta)) = \int g(x)\log\frac{g(x)}{f(x;\theta)}dx=\int g(x)\log g(x) dx - \int g(x) \log f(x;\theta) dx\]
ここで第1項は定数,第2項はモデルの分布の期待値 \(\mathrm{E}_g[\log f(x;\theta)]\) に等しい.ここで期待値を訓練サンプルでの平均値で近似すると
\[\mathrm{E}_g[\log f(x;\theta)]\approx \frac{1}{N} \sum_{i=1}^N \log f(x;\theta)=\frac{1}{N}\log\prod_{i=1}^N f(x_i;\theta)=\frac{1}{N}\log\mathcal{L}(X;\theta)\]
のように対数尤度となる.よって最尤推定は,分布との距離をKullback-Leiblerダイバージェンス測ったとき,真の分布に最も近いモデルの分布を見つけているといえる.

>-- しましま

**関連項目 [#n61198c5]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.

-[[maximum likelihood estimation]]
-[[MLE]]
-[[maximum likelihood]]
#br
-[[尤度]]
-[[likelihood]]
#br
-[[教師あり学習]]
-[[教師なし学習]]
-[[Kullback-Leiblerダイバージェンス]]
-[[MAP推定]]
-[[ベイズ推定]]
#br
-[[検索:最尤推定 尤度]]

**リンク集 [#r9e11e08]

//関連するWWW資源があればリンクしてください.
-[[Wikipedia:Maximum_likelihood]]
-[[MathWorld:MaximumLikelihood]]
-[[PlanetMath:MaximumLikelihoodEstimate]]

**関連文献 [#e4bd01ad]

//この%項目%に関連する書籍や論文を紹介してください.
-[[Book/人工知能学事典]]:14-10章
-[[Book/わかりやすいパターン認識]]:4.2章
-[[Book/Pattern Recognition and Machine Learning]] p.23
-[[Book/データマイニングの基礎]] 5.3.1節
-[[Book/フリーソフトでつくる音声認識システム]] 7.2節
-[[Book/The Elements of Statistical Learning]]:8.2.2章
-[[Book/Machine Learning]]:6.4章

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS