アンサンブル学習の枠組みで行うクラスタリング.
条件を変えて対象集合を分けて,同じ対象集合の複数のクラスタリングを得る.
これらを弱クラスタリングなどという.
これらの弱クラスタリングをまとめて一つのクラスタリングを得るのがクラスタアンサンブル (cluster ensemble)という.アンサンブルクラスタリングということもある.
このとき,元の対象の特徴や,対象間の類似度を参照しないことに注意
文献1では,クラスタアンサンブルの目的には次のようなものがあると述べている.
- 頑健性:適用分野やデータ集合が違っても平均的に良い結果が得られる
- 新規性:単一のクラスタリングでは見つからなかったものが見つかることも
- 安定性と確信度推定:ノイズ,はずれ値,サンプリングの違いによる変動を抑制.クラスタリングの不確実性をアンサンブル分布から予測可能.
- 並列化と大規模化:データや属性が分散した計算機環境の下で計算できる
弱クラスタリングを得る方法には次のようなものがある
- ランダム分割:ランダムに分けても,違うクラスタの対象対は高い確率で違うクラスタになると考えられる.
- パラメータや部分空間を変える:アルゴリズムの超パラメータを変えたり,類似度を測る部分空間を変えたりする.特に低次元部分空間での弱クラスタリングを使う場合は,高次元データに対する対策として多用される.
- 全く違うクラスタリング手法:多様なクラスタ構造を反映させるために,全く違うクラスタリング手法を適用する.
-- しましま
関連項目†
リンク集†
関連文献†
- 文献1:弱クラスタリングでどのクラスタに分類されるかを示す特徴ベクトルから最終クラスタリングを得る.
A.Topchy, A.K.Jain, and W.Punch, "A Mixture Model for Clustering Ensembles", SDM2004, pp.379-390
GoogleScholarAll:A Mixture Model for Clustering Ensembles
- クラスタアンサンブルが,弱クラスタリングの数を∞にすることで「真の」分割に収束することの理論付け
A.P.Topchy, M.H.C.Law, A.K.Jain, and A.L.Fred, "Analysis of Consensus Partition in Cluster Ensemble", ICDM2004
GoogleScholarAll:Analysis of Consensus Partition in Cluster Ensemble
- ランダム射影を用いて低次元空間でのクラスタリングをいくつか作り,それらをアンサンブルすることで高次元データを次元の呪いを回避しつつクラスタリングする.
X.Z.Fern and C.E.Brodley "Random Projection for High Dimensional Data Clustering: A Cluster Ensemble Approach", ICML2003
GoogleScholarAll:Random Projection for High Dimensional Data Clustering: A Cluster Ensemble Approach
- クラスタアンサンブルとしては初期の研究.距離型やクラスタ平均型のアイデアを示している.
A. Strehl and J. Ghosh, "Cluster Ensembles --- A Knowledge Reuse Framework for Combining Multiple Partitions" JMLR, vol.3, pp.583-617 (2002)