* ベイズ情報量規準 (Bayesian information criterion; BIC) [#fcbc63e9]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

パラメータで記述されたモデルのクラスからモデルを選択する基準.Schwarz情報量規準とも呼ばれる.
k 個のパラメータをもつ分布 \(f(x|\theta)\) に従って N 個のデータがサンプルされているとき,次式を最大化するモデルを選択する.
\[\mathrm{BIC}=-2\log(\Pr[\{x\}^N|\theta])+k\log{N}\]
ただし,\(\Pr[\{x\}^N|\theta]\) は尤度.

形式的には [[MDL]] と同じだが,導出過程は異なる.
- データが与えられたときの,モデル \(\mathcal{M}\) が発生する条件付確率 \(\Pr[\mathcal{M}|\{x\}^N]\) の最大化するモデルが良いと考える.
- \(\Pr[\mathcal{M}|\{x\}^N]\)は,ベイズの定理により \(\Pr[\mathcal{M}]\Pr[\{x\}^N|\mathcal{M}]\) に比例する.
- モデルは均一分布すると考えると,\(\Pr[\{x\}^N|\mathcal{M}]\) の最大化を考えればよい.
- この確率の対数
\[\log\Pr[\{x\}^N|\mathcal{M}]=\int\Pr[\{x\}^N|\theta_k,\mathcal{M}]\Pr[\theta_k|\mathcal{M}]d\theta_k\]
を,最尤推定パラメータ \(\hat{\theta}_k\) の周囲で,正規分布するとのLaplace近似をすると
\[\log(\Pr[\{x\}^N|\hat{\theta}_k,\mathcal{M}])-\frac{k}{2}\log{N}+O(1)\]
となって,[[BIC]]が導かれる.

> --しましま

**関連項目 [#w28f85ed]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.

-[[ベイズ情報量規準]]
-[[Bayesian information criterion]]
-[[Schwarz情報量規準]]
-[[Schwarz information criterion]]
#br
-[[情報量規準]]
-[[AIC]]
-[[MDL]]
-[[Laplace近似]]
#br
-[[検索:BIC]]

**リンク集 [#zcf281bc]

//関連するWWW資源があればリンクしてください.
-[[A Cartoon Guide to AIC, BIC>http://www.cs.cmu.edu/~zhuxj/courseproject/aicbic/sld001.htm]] @ Xiaojin Zhu
#br
-[[Wikipedia:Schwarz_criterion]]

**関連文献 [#ibe8d764]

//この%項目%に関連する書籍や論文を紹介してください.
-[[Book/パターン認識(Rで学ぶデータサイエンス5)]] 4.3節
-[[Book/The Elements of Statistical Learning]] 7.7章
-[[Book/Pattern Recognition and Machine Learning]] 4.4.1章
-[[Book/データマイニングの基礎]] 5.3.4節

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS