STREAM†
データストリームのクラスタリングの先駆的研究.ベタな名前だが,特に何かの略というわけではない.
データストリームを,一定の大きさのチャンク単位ごとに読み込む.
このチャンクを,LSEARCHと呼ぶを高速なクラスタリング手法で分割し,その中心位置だけを保持して,元のデータは廃棄する.中心位置だけなので,少ないメモリで保持できる.
そうして得られたクラスタの中心を,後で大域的なクラスタリングにかける点はBIRCHなど他のデータストリームのクラスタリング手法と同じ.
LSEARCHは,k-medoids型のクラスタリングを,誤差の上限を保証した近似で解くことで高速化を実現する手法.
-- しましま
関連項目†
リンク集†
関連文献†
- 基本文献
L.O'Callaghan, N.Mishra, A.Meyerson, S.Guha, and R.Motwani "Streaming-Data Algorithms For High-Quality Clustering" 18th ICDE, pp.685-694 (2002)
GoogleScholarAll:Streaming-Data Algorithms For High-Quality Clustering
- D.Barbará, "Requirements for Clustering Data Streams", SIGKDD Explorations, vol.3, issue.2, pp.23-27 (2002)
GoogleScholarAll:Requirements for Clustering Data Streams
- Book/Data Mining - Concepts and Techniques 8.1.5節