@InProceedings{icdm:03:04, author = "E. Keogh and J. Lin and W. Truppel", title = "Clustering of Time-Series Subsequences is Meaningless: Implications for Previous and Future Research", booktitle = "Proc. of The 3rd {IEEE} Int'l Conf. on Data Mining", year = 2003, pages = "115-122" }
フルペーパー
@Article{kais:05:01, author = "E. Keogh and J. Lin", title = "Clustering of Time-Series Subsequences is Meaningless: Implications for Previous and Future Research", journal = "Knowledge and Information Systems", year = 2005, volume = "8", pages = "154-177" }
スライディングウィンドウにより得られた部分時系列をクラスタリングする問題がランダムな解を導く意味のないものであることを示した論文.
もう少し形式的に書くと,n個の部分系列 [t,t+w-1], [t+1, t+(w-1)+1] ... [t+n, t+(w-1)+n] を一つの系列から取り出す.これを長さ w のベクトルと見なしてクラスタリングすることを部分時系列クラスタリング (STSクラスタリング; subsequence time-series clustering) と呼ぶ.
このSTSクラスタリングをすると,クラスタリングの結果はノイズやクラスタリングの初期値に依存して決まるランダムな分割しか導かないと主張.また,k-meansなどを適用するとその中心はサイン曲線のようになる.
直観的な原因として自明な一致(trivial match)を挙げている. これは,[t,t+w-1] と その隣の [t+1,t+(w-1)+1] は多くの場合類似度が高くなる. そのため,どうしても時間的に近い系列が同じクラスタに入りやすくなってしまい,意図した結果が得られない.
単純な回避法としては,1ずつずらすのではなく,一度に充分に大きな幅ずつ移動するか,自明な一致を排除するようなヒューリスティクスの導入が挙げられる.
-- しましま