情報ボトルネックはノンパラメトリックなソフトクラスタリング手法の一つ.
クラスタリングされる離散確率変数 \(X\) と,\(X\) に関連した情報 \(Y\) を考える.例えば \(X\) が単語集合で,\(Y\) は文書クラスなど.
ここで,\(X\) 中の要素を,それらと関連情報 \(Y\) の類似するように分割する.例えば,文書クラスを関連情報としたとき,同じクラスに現れやすい単語クラスタを獲得できたりする.
形式的には次のような問題: \(X\) を \(\tilde{X}\) に分割する. この分割は,確率的写像 \(\Pr[\tilde{X}|X]\) で表し,次式を最小化するように定める. \[\mathcal{L}(\Pr[\tilde{X}|X])=\mathrm{I}(X;\tilde{X})-\beta\mathrm{I}(\tilde{X};Y)\]
-- しましま