データストリームのクラスタリングに加え,各クラスタで特徴選択を行う部分空間クラスタリングも同時に行う.
BIRCHのように,クラスタを代表統計量で記述する.
データストリームの変化に対応するため,代表統計量には時間減衰の要素を付加し,過去のデータの影響を弱めている.
新しい点は最も近いクラスタに分類されるか,孤立した新クラスタに分類される.孤立クラスタに分類するかどうかの判断は,最も近いクラスタの分散と,そのクラスタまでの距離の比で決める.ただし,新クラスタが生成されたときには,最も長い間更新されていないクラスタは抹消される.
各クラスタでは距離を測るときに,利用する特徴の次元とそうでないものがあるので,
部分空間クラスタリングの要素がある.
利用する次元の選択は,新規データをクラスタに仮に分類し,各次元ごとに個別に測った分散が小さいものから一定個の特徴を採用する.
-- しましま
関連項目†
リンク集†
関連文献†
- 基本文献:フルペーパー
C.C.Aggarwal, J.Han, J.Wang, and P.S.Yu "On High Dimensional Projected Clustering of Data Streams", Data Mining and Knowledge Discovery, vol.10, pp.251-273 (2005)
GoogleScholarAll:On High Dimensional Projected Clustering of Data Streams
- 基本文献:国際会議
C.C.Aggarwal, J.Han, J.Wang, and P.S.Yu "A Framework for Projected Clustering of High Dimensional Data Streams", 30th VLDB, pp.852-863 (2004)
GoogleScholarAll:A Framework for Projected Clustering of High Dimensional Data Streams