球面クラスタリング (spherical clustering)

ユークリッド距離ではなく,事例間の角度(コサイン)で類似度を測る場合に使う (分類する対象が比率尺度の特徴で記述されているような,文書ベクトルの分類などの場合). 次元の呪いを本質的に回避できる理論的根拠はないが,実験的には高次元でも比較的よい結果が得られるとされている.

文献1は球面クラスタリングの初期の論文.k-means法のように,中心の計算と再割当を交互に行い,次の目的関数を最小化する球面k-means法 (spherical k-means; spkmeans). \[\mathcal{Q}\Bigl(\{\pi_j\}_{j=1}^k\Bigr)=\sum_{j=1}^k \sum_{\mathbf{x}\in\pi_j}\mathbf{x}^\top\mathbf{c}_j\] ただし,\(\pi_j\)はクラスタ,\(\mathbf{c}_j\)はクラスタの中心で,重心ベクトルを大きさ1に正規化したもの.

文献2は,混合分布EMアルゴリズムを使ったクラスタリングを,球面クラスタリング用にしたもの.次のvon Mises-Fisher分布混合分布の対数尤度をEMアルゴリズムを使って最大化する. \[\ln\Pr(\mathcal{X}|\mathbf{\Theta})=\sum_{i=1}^n\ln\sum_{j=1}^k\alpha_j \mathrm{vMF}_j(\mathbf{x}_i|\theta_j)\] ただし,\(\mathrm{vMF}\)はvon Mises-Fisher分布確率密度,\(\alpha_j\)は混合比.

-- しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:13:00 (2492d)