ユークリッド距離ではなく,事例間の角度(コサイン)で類似度を測る場合に使う (分類する対象が比率尺度の特徴で記述されているような,文書ベクトルの分類などの場合). 次元の呪いを本質的に回避できる理論的根拠はないが,実験的には高次元でも比較的よい結果が得られるとされている.
文献1は球面クラスタリングの初期の論文.k-means法のように,中心の計算と再割当を交互に行い,次の目的関数を最小化する球面k-means法 (spherical k-means; spkmeans). \[\mathcal{Q}\Bigl(\{\pi_j\}_{j=1}^k\Bigr)=\sum_{j=1}^k \sum_{\mathbf{x}\in\pi_j}\mathbf{x}^\top\mathbf{c}_j\] ただし,\(\pi_j\)はクラスタ,\(\mathbf{c}_j\)はクラスタの中心で,重心ベクトルを大きさ1に正規化したもの.
文献2は,混合分布とEMアルゴリズムを使ったクラスタリングを,球面クラスタリング用にしたもの.次のvon Mises-Fisher分布の混合分布の対数尤度をEMアルゴリズムを使って最大化する. \[\ln\Pr(\mathcal{X}|\mathbf{\Theta})=\sum_{i=1}^n\ln\sum_{j=1}^k\alpha_j \mathrm{vMF}_j(\mathbf{x}_i|\theta_j)\] ただし,\(\mathrm{vMF}\)はvon Mises-Fisher分布の確率密度,\(\alpha_j\)は混合比.
-- しましま