CluStream

データストリームのためのクラスタリング手法.

ストリームのいろいろな期間のクラスタを調査できるように,pyramidal time frame構造で,いろいろな時期のデータのスナップショットを保持.

  • スナップショットは,時間間隔を変えて複数の系列でとる.
  • 次数 \(i\) のスナップショットの系列は,間隔 \(\alpha^i\) ごとに取得.
  • 各次数ごとに最新のものを一定数個ずつ保存する
  • 異なる次数で,重複したスナップショット保持しなくて済むので,総スナップショット数は抑制できる

スナップショットは,BIRCHSTREAMと同様に,マイクロクラスタと呼ぶ小さなクラスタの集合で表し,最終クラスタはこれらのマイクロクラスタをまとめたものになる.

マイクロクラスタは,初期的にはk-means法で生成.新たなデータは,既存マイクロクラスタに分類するか,新たなマイクロクラスタを生成して分類する. また,マイクロクラスタは,BIRCHのCF-treeのような要約情報だけを保持することで,記憶容量を節約する. また,この要約情報の加法性から,時刻 \(t\) と \(t-h\) のスナップショットがあれば,その間の期間に入力されたデータの情報が計算できるところがポイント.

-- しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:10:55 (2492d)