最尤推定

最尤推定 (maximum likelihood estimation; MLE)†

訓練サンプル \(X=\{x_1,x_2,\ldots,x_N\}\) が独立同分布でサンプリングされたとする．このとき，データの発生源の確率分布を，確率モデル \(f(x;\theta)\) が近似するようにパラメータ \(\theta\) を推定する方法．

まず次の尤度 (likelihood) (または，尤度関数 (likelihood function)) を考える． \[\mathcal{L}(X;\theta)=\prod_{i=1}^N f(x_i;\theta)\] これは訓練サンプルが生じる確率に相当．

最尤推定 (maximum likelihood estimation; MLE)，または最尤法 (maximum likelihood method) とは，この尤度を最大にする，すなわち，訓練サンプル集合が生じる確率を最大にするパラメータ値を，パラメータの推定量とする方法．これは頻度主義の考えに基づいている． \[\hat{\theta}=\arg\max_{\theta} \mathcal{L}(X;\theta)\]

ここで，知ることのできない真の分布を \(g(x)\) で表す．この真の分布から，モデルによる分布までの距離(非類似度)をKullback-Leiblerダイバージェンスで測ると \[D_{KL}(g(x)||f(x;\theta)) = \int g(x)\log\frac{g(x)}{f(x;\theta)}dx=\int g(x)\log g(x) dx - \int g(x) \log f(x;\theta) dx\] ここで第1項は定数，第2項はモデルの分布の期待値 \(\mathrm{E}_g[\log f(x;\theta)]\) に等しい．ここで期待値を訓練サンプルでの平均値で近似すると \[\mathrm{E}_g[\log f(x;\theta)]\approx \frac{1}{N} \sum_{i=1}^N \log f(x;\theta)=\frac{1}{N}\log\prod_{i=1}^N f(x_i;\theta)=\frac{1}{N}\log\mathcal{L}(X;\theta)\] のように対数尤度となる．よって最尤推定は，分布との距離をKullback-Leiblerダイバージェンス測ったとき，真の分布に最も近いモデルの分布を見つけているといえる．