ベイズ情報量規準 (Bayesian information criterion; BIC)

パラメータで記述されたモデルのクラスからモデルを選択する基準.Schwarz情報量規準とも呼ばれる. k 個のパラメータをもつ分布 \(f(x|\theta)\) に従って N 個のデータがサンプルされているとき,次式を最大化するモデルを選択する. \[\mathrm{BIC}=-2\log(\Pr[\{x\}^N|\theta])+k\log{N}\] ただし,\(\Pr[\{x\}^N|\theta]\) は尤度.

形式的には MDL と同じだが,導出過程は異なる.

  • データが与えられたときの,モデル \(\mathcal{M}\) が発生する条件付確率 \(\Pr[\mathcal{M}|\{x\}^N]\) の最大化するモデルが良いと考える.
  • \(\Pr[\mathcal{M}|\{x\}^N]\)は,ベイズの定理により \(\Pr[\mathcal{M}]\Pr[\{x\}^N|\mathcal{M}]\) に比例する.
  • モデル均一分布すると考えると,\(\Pr[\{x\}^N|\mathcal{M}]\) の最大化を考えればよい.
  • この確率の対数 \[\log\Pr[\{x\}^N|\mathcal{M}]=\int\Pr[\{x\}^N|\theta_k,\mathcal{M}]\Pr[\theta_k|\mathcal{M}]d\theta_k\] を,最尤推定パラメータ \(\hat{\theta}_k\) の周囲で,正規分布するとのLaplace近似をすると \[\log(\Pr[\{x\}^N|\hat{\theta}_k,\mathcal{M}])-\frac{k}{2}\log{N}+O(1)\] となって,BICが導かれる.

--しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:10:43 (2488d)