球面クラスタリング

これらのキーワードがハイライトされています：クラスタリング クラスター分析 clustering

球面クラスタリング (spherical clustering)†

ユークリッド距離ではなく，事例間の角度(コサイン)で類似度を測る場合に使う（分類する対象が比率尺度の特徴で記述されているような，文書ベクトルの分類などの場合）．次元の呪いを本質的に回避できる理論的根拠はないが，実験的には高次元でも比較的よい結果が得られるとされている．

文献1は球面クラスタリングの初期の論文．k-means法のように，中心の計算と再割当を交互に行い，次の目的関数を最小化する球面k-means法 (spherical k-means; spkmeans)． $\mathcal{Q}\Bigl(\{\pi_j\}_{j=1}^k\Bigr)=\sum_{j=1}^k \sum_{\mathbf{x}\in\pi_j}\mathbf{x}^\top\mathbf{c}_j$ ただし， $\pi_j$ はクラスタ， $\mathbf{c}_j$ はクラスタの中心で，重心ベクトルを大きさ1に正規化したもの．

文献2は，混合分布とEMアルゴリズムを使ったクラスタリングを，球面クラスタリング用にしたもの．次のvon Mises-Fisher分布の混合分布の対数尤度をEMアルゴリズムを使って最大化する． $\ln\Pr(\mathcal{X}|\mathbf{\Theta})=\sum_{i=1}^n\ln\sum_{j=1}^k\alpha_j \mathrm{vMF}_j(\mathbf{x}_i|\theta_j)$ ただし， $\mathrm{vMF}$ はvon Mises-Fisher分布の確率密度， $\alpha_j$ は混合比．