パラメータで記述されたモデルのクラスからモデルを選択する基準.Schwarz情報量規準とも呼ばれる.
k 個のパラメータをもつ分布 \(f(x|\theta)\) に従って N 個のデータがサンプルされているとき,次式を最大化するモデルを選択する.
\[\mathrm{BIC}=-2\log(\Pr[\{x\}^N|\theta])+k\log{N}\]
ただし,\(\Pr[\{x\}^N|\theta]\) は尤度.
形式的には MDL と同じだが,導出過程は異なる.
- データが与えられたときの,モデル \(\mathcal{M}\) が発生する条件付確率 \(\Pr[\mathcal{M}|\{x\}^N]\) の最大化するモデルが良いと考える.
- \(\Pr[\mathcal{M}|\{x\}^N]\)は,ベイズの定理により \(\Pr[\mathcal{M}]\Pr[\{x\}^N|\mathcal{M}]\) に比例する.
- モデルは均一分布すると考えると,\(\Pr[\{x\}^N|\mathcal{M}]\) の最大化を考えればよい.
- この確率の対数
\[\log\Pr[\{x\}^N|\mathcal{M}]=\int\Pr[\{x\}^N|\theta_k,\mathcal{M}]\Pr[\theta_k|\mathcal{M}]d\theta_k\]
を,最尤推定パラメータ \(\hat{\theta}_k\) の周囲で,正規分布するとのLaplace近似をすると
\[\log(\Pr[\{x\}^N|\hat{\theta}_k,\mathcal{M}])-\frac{k}{2}\log{N}+O(1)\]
となって,BICが導かれる.
--しましま
関連項目†
リンク集†
関連文献†