* Clustering of Time-Series Subsequences is Meaningless: Implications for Previous and Future Research [#b6d7dd87]

//ここには文献のリファレンスを書いてください.bibtex形式で書くことを推奨します.
 @InProceedings{icdm:03:04,
  author =       "E. Keogh and J. Lin and W. Truppel",
  title =        "Clustering of Time-Series Subsequences is Meaningless: Implications for Previous and Future Research",
  booktitle =    "Proc. of The 3rd {IEEE} Int'l Conf. on Data Mining",
  year =         2003,
  pages =        "115-122"
 }

フルペーパー

 @Article{kais:05:01,
  author =       "E. Keogh and J. Lin",
  title =        "Clustering of Time-Series Subsequences is Meaningless: Implications for Previous and Future Research",
  journal =      "Knowledge and Information Systems",
  year =         2005,
  volume =       "8",
  pages =        "154-177"
 }

*キーワード [#e68caf61]

//ここにはキーワードを列挙してください.
クラスタリング, 時系列

*メモ [#h7b96fc6]

//内容とかを簡単に書いてください

スライディングウィンドウにより得られた部分時系列をクラスタリングする問題がランダムな解を導く意味のないものであることを示した論文.

もう少し形式的に書くと,n個の部分系列 [t,t+w-1], [t+1, t+(w-1)+1] ... [t+n, t+(w-1)+n] を一つの系列から取り出す.これを長さ w のベクトルと見なしてクラスタリングすることを部分時系列クラスタリング (STSクラスタリング; subsequence time-series clustering) と呼ぶ.

このSTSクラスタリングをすると,クラスタリングの結果はノイズやクラスタリングの初期値に依存して決まるランダムな分割しか導かないと主張.また,k-meansなどを適用するとその中心はサイン曲線のようになる.

直観的な原因として自明な一致(trivial match)を挙げている.
これは,[t,t+w-1] と その隣の [t+1,t+(w-1)+1] は多くの場合類似度が高くなる.
そのため,どうしても時間的に近い系列が同じクラスタに入りやすくなってしまい,意図した結果が得られない.

単純な回避法としては,1ずつずらすのではなく,一度に充分に大きな幅ずつ移動するか,自明な一致を排除するようなヒューリスティクスの導入が挙げられる.

> -- しましま

*リンク [#g85945ef]

//関連リンクを書いてください.
-[[ICDM>Meeting#ICDM]]
-[[GoogleScholarAll:Clustering of Time-Series Subsequences is Meaningless]]
-各クラスタの中心がなぜサイン曲線になるのかをより詳細に示した論文~
Tsuyoshi Ide "Why Does Subsequence Time-Series Clustering Produce Sine Waves?" 10th PKDD, pp.609-616 (2006) [LNAI 4213]~
[[井手 剛 "部分時系列クラスタリングの理論的基礎>http://joi.jlc.jst.go.jp/JST.JSTAGE/pjsai/JSAI06/0/JSAI06_94?lang=ja]]~
[[GoogleScholarAll:Why Does Subsequence Time-Series Clustering Produce Sine Waves?]]

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS