最尤推定 (maximum likelihood estimation; MLE)

訓練サンプル \(X=\{x_1,x_2,\ldots,x_N\}\) が独立同分布でサンプリングされたとする. このとき,データの発生源の確率分布を,確率モデル \(f(x;\theta)\) が近似するようにパラメータ \(\theta\) を推定する方法.

まず次の尤度 (likelihood) (または,尤度関数 (likelihood function)) を考える. \[\mathcal{L}(X;\theta)=\prod_{i=1}^N f(x_i;\theta)\] これは訓練サンプルが生じる確率に相当.

最尤推定 (maximum likelihood estimation; MLE),または最尤法 (maximum likelihood method) とは,この尤度を最大にする,すなわち,訓練サンプル集合が生じる確率を最大にするパラメータ値を,パラメータの推定量とする方法. これは頻度主義の考えに基づいている. \[\hat{\theta}=\arg\max_{\theta} \mathcal{L}(X;\theta)\]

ここで,知ることのできない真の分布を \(g(x)\) で表す.この真の分布から,モデルによる分布までの距離(非類似度)をKullback-Leiblerダイバージェンスで測ると \[D_{KL}(g(x)||f(x;\theta)) = \int g(x)\log\frac{g(x)}{f(x;\theta)}dx=\int g(x)\log g(x) dx - \int g(x) \log f(x;\theta) dx\] ここで第1項は定数,第2項はモデルの分布の期待値 \(\mathrm{E}_g[\log f(x;\theta)]\) に等しい.ここで期待値を訓練サンプルでの平均値で近似すると \[\mathrm{E}_g[\log f(x;\theta)]\approx \frac{1}{N} \sum_{i=1}^N \log f(x;\theta)=\frac{1}{N}\log\prod_{i=1}^N f(x_i;\theta)=\frac{1}{N}\log\mathcal{L}(X;\theta)\] のように対数尤度となる.よって最尤推定は,分布との距離をKullback-Leiblerダイバージェンス測ったとき,真の分布に最も近いモデルの分布を見つけているといえる.

-- しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2015-02-09 (月) 12:33:51