* 最小記述長 (minimum description length; MDL)  [#w8f24030]

//ここには %項目の説明を書いてください.

パラメータで記述されたモデルのクラスからモデルを選択する基準.
パラメータそのものを符号化する符号長と,そのパラメータのときの分布を使ったデータの記述長の総和を使う二段階符号化をしたとき,記述長が最小になる分布を選ぶ.

minmaxの考えに基づき,パラメータの符号化法には,期待的に最も悪い,すなわち,パラメータが均一分布する場合の符号化法を選び,その符号化法を使ったときデータの記述長が最小になるモデルを選択する.

\(k\) 個のコンパクトなパラメータがあり,分布 \(f(x|\theta)\) に従って \(N\) 個のデータがサンプルされているときは次の符号長が用いられる.
\[\mathrm{MDL}=-\log[\Pr(\{x\}^N|\theta)]+\frac{k}{2}\log{N}\]
第1項はデータ \(\{x\}^N\) の尤度,第2項はパラメータの記述長.
第2項は,標準偏差に比例するように \(1/\sqrt{N}\) に比例する幅でパラメータの値域を分割して,そのセルの一つを指定することで符号化することをk回繰り返したものとみなせる.

確率を主観確率とみなす [[BIC]] に対し,[[MDL]]は頻度主義の立場にたつ.
> -- しましま,こびと

**関連項目 [#x7eb3122]

//関連する%項目%をリストしてください.
-[[minimum description length]]
-[[最小記述長]]
#br
-[[モデル選択]]
-[[情報量規準]]
-[[AIC]]
-[[BIC]]
-[[情報理論]]
-[[エントロピー]]
-[[Jeffreys事前分布]]
-[[確率的コンプレクシティ]]
-[[二段階符号]]
-[[劣確率分布]]
-[[Kraftの不等式]]
-[[ユニバーサル符号]]
#br
-[[検索:MDL 最小記述長]]

**リンク集 [#k9d524b4]

//関連するWWW資源があればリンクしてください.

-[[mdl-research.org>http://www.mdl-research.org/]]:[[MDL]]に関する資料が満載
#br
-[[Wikipedia:Minimum_description_length]]

**関連文献 [#lfaef8ab]

//この%項目%に関連する書籍や論文を紹介してください.

-基本文献だが,後にかかれた他の論文の方が整理されててよく分かると思う.-- しましま~
J.Rissanen, "Modeling By Shortest Data Description", Automatica, vol.14, no.465-471 (1978)~
[[GoogleScholarAll:Modeling By Shortest Data Description]]
-日本語
[[Book/モデル選択(統計科学のフロンティア3)]]
-[[Book/Pattern Classification]] 9.2.4-5節
-[[Book/Information Theory, Inference, and Learning Algorithms]] 28.3節
-[[Book/データマイニングの基礎]] 5.3.3節

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS