二値分類問題で,仮説空間 \(\Theta\) 中の識別器 \(\theta\) を考える.
\(\theta\) を選ぶと,\(N\) 個のデータ \(D=\{(y_1,x_1),\ldots,(y_N,x_N)\}\) 中の各データが正しく分類されるかどうかのパターンが決まる.
\(\Theta\) 中の全ての分類器でデータを分類したときの,このパターンの数が\(\mathcal{N}(D)\). 例えば,常にクラス1を選ぶ分類器1個しか \(\Theta\)に含まれていなければ,\(\mathcal{N}(D)=1\) となる.
このとき,VCエントロピーは次式: \[H(l)=\mathrm{E}_D[\ln\mathcal{N}(D)]\] ただし,期待値は全ての可能な \(N\) 個のデータのサンプル \(D\) についてとる.
この期待値と対数を入れ替えたものがannealed VCエントロピー: \[H_{\mathrm{ann}}(l)=\ln\mathrm{E}_D[\mathcal{N}(D)]\]
-- しましま