これらのキーワードがハイライトされています:クラスタリング クラスター分析 clustering
ユークリッド距離ではなく,事例間の角度(コサイン)で類似度を測る場合に使う
(分類する対象が比率尺度の特徴で記述されているような,文書ベクトルの分類などの場合).
次元の呪いを本質的に回避できる理論的根拠はないが,実験的には高次元でも比較的よい結果が得られるとされている.
文献1は球面クラスタリングの初期の論文.k-means法のように,中心の計算と再割当を交互に行い,次の目的関数を最小化する球面k-means法 (spherical k-means; spkmeans).
\mathcal{Q}\Bigl(\{\pi_j\}_{j=1}^k\Bigr)=\sum_{j=1}^k \sum_{\mathbf{x}\in\pi_j}\mathbf{x}^\top\mathbf{c}_j
ただし,\pi_jはクラスタ,\mathbf{c}_jはクラスタの中心で,重心ベクトルを大きさ1に正規化したもの.
文献2は,混合分布とEMアルゴリズムを使ったクラスタリングを,球面クラスタリング用にしたもの.次のvon Mises-Fisher分布の混合分布の対数尤度をEMアルゴリズムを使って最大化する.
\ln\Pr(\mathcal{X}|\mathbf{\Theta})=\sum_{i=1}^n\ln\sum_{j=1}^k\alpha_j \mathrm{vMF}_j(\mathbf{x}_i|\theta_j)
ただし,\mathrm{vMF}はvon Mises-Fisher分布の確率密度,\alpha_jは混合比.
-- しましま
関連項目†
リンク集†
関連文献†
- 文献1
I.S.Dhillon and D.S.Modha
"Concept Decompositions for Large Sparse Text Data Using Clustering"
Machine Learning, vol.42, pp.143-175 (2001)
GoogleScholarAll:Concept Decompositions for Large Sparse Text Data Using Clustering
- 文献2
A.Banerjee, I.Dhillon, J.Ghosh, and S.Sra
"Generative Model-based Clustering of Directional Data"
KDD2003, pp.19-28
GoogleScholarAll:Generative Model-based Clustering of Directional Data
- 文献2のフルペーパー
A.Banerjee, I.Dhillon, J.Ghosh, and S.Sra,
"Clustering on the Unit Hypersphere using von Mises-Fisher Distributions",
JMLR, vol.6, pp.1345-1382 (2005)
GoogleScholarAll:Clustering on the Unit Hypersphere using von Mises-Fisher Distributions