@InProceedings{icdm:04:01, author = "D. Gondek and T. Hofmann", title = "Non-Redundant Data Clustering", booktitle = "Proc. of The 4th {IEEE} Int'l Conf. on Data Mining", year = 2004, pages = "75-82" }
coordinated conditional information bottleneck, 情報ボトルネック, CCIB, クラスタリング, 背景知識
ICDM2004で論文賞を取った論文. 指定されたある情報と冗長ではない,すなわち,無関係な情報に基づいてクラスタリングする方法の提案.
例えば,顔画像の集合を普通にクラスタリングすると顔だけの画像と,肩まで写った画像に分かれる.このクラスタリングの結果と無関係な情報に基づいてクラスタリングすると,男性と女性のクラスタが抽出できたりする.
クラスタリングされる対象 \(X\) (上の例では顔画像集合),\(X\) に関連する特徴 \(Y\) (画像の特徴) は対象に確定的に依存.また,背景知識 \(Z\) (顔だけ/肩まで) も対象に確定的に依存. このとき,\(X\) をクラスタリングして分割 \(C\) (男性/女性)を得るのが目的.
クラスタリングは次式を満たすような \(\Pr[C|X]\) を求めるのが cordinated conditional information bottleneck (CCIB). \[P^\ast_{C|X}=\arg\max_{P_{C|X}\in\mathcal{P}} I(C;Y|Z)\] \[\mathcal{P}\equiv\{P_{C|X}:I(C;X)\le C_{\max},\,I(C;Y)\ge I_{\min}\}\]
-- しましま