* 球面クラスタリング (spherical clustering) [#mb086e99]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

ユークリッド距離ではなく,事例間の角度(コサイン)で類似度を測る場合に使う
(分類する対象が比率尺度の特徴で記述されているような,文書ベクトルの分類などの場合).
次元の呪いを本質的に回避できる理論的根拠はないが,実験的には高次元でも比較的よい結果が得られるとされている.

文献1は球面クラスタリングの初期の論文.k-means法のように,中心の計算と再割当を交互に行い,次の目的関数を最小化する球面'''k'''-means法 (spherical k-means; spkmeans).
\[\mathcal{Q}\Bigl(\{\pi_j\}_{j=1}^k\Bigr)=\sum_{j=1}^k \sum_{\mathbf{x}\in\pi_j}\mathbf{x}^\top\mathbf{c}_j\]
ただし,\(\pi_j\)はクラスタ,\(\mathbf{c}_j\)はクラスタの中心で,重心ベクトルを大きさ1に正規化したもの.

文献2は,混合分布とEMアルゴリズムを使ったクラスタリングを,球面クラスタリング用にしたもの.次のvon Mises-Fisher分布の混合分布の対数尤度をEMアルゴリズムを使って最大化する.
\[\ln\Pr(\mathcal{X}|\mathbf{\Theta})=\sum_{i=1}^n\ln\sum_{j=1}^k\alpha_j \mathrm{vMF}_j(\mathbf{x}_i|\theta_j)\]
ただし,\(\mathrm{vMF}\)はvon Mises-Fisher分布の確率密度,\(\alpha_j\)は混合比.

> -- しましま

** 関連項目 [#o0a51eb6]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.
-[[spherical clustering]]
#br
-[[クラスタリング]]
-[[EMアルゴリズム]]
-[[k-means法]]
-[[von Mises-Fisher分布]]
#br
-[[検索:球面クラスタリング]]

** リンク集 [#c4efe314]

//関連するWWW資源があればリンクしてください.

** 関連文献 [#p5b7a5ef]

//この%項目%に関連する書籍や論文を紹介してください.

-文献1~
I.S.Dhillon and D.S.Modha
"Concept Decompositions for Large Sparse Text Data Using Clustering"
Machine Learning, vol.42, pp.143-175 (2001)~
[[GoogleScholarAll:Concept Decompositions for Large Sparse Text Data Using Clustering]]
-文献2~
A.Banerjee, I.Dhillon, J.Ghosh, and S.Sra
"Generative Model-based Clustering of Directional Data"
KDD2003, pp.19-28~
[[GoogleScholarAll:Generative Model-based Clustering of Directional Data]]
-文献2のフルペーパー~
A.Banerjee, I.Dhillon, J.Ghosh, and S.Sra,
"Clustering on the Unit Hypersphere using von Mises-Fisher Distributions",
JMLR, vol.6, pp.1345-1382 (2005)~
[[GoogleScholarAll:Clustering on the Unit Hypersphere using von Mises-Fisher Distributions]]

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS