* 系列データ (sequential data) [#q24767fc]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

同質のデータを直列に並べたデータをさし,DNA系列や,文字列などがある.さらに,データマイニング分野では以下のようなバスケットデータの系列データもある.

(用語と記号はバスケットデータの項目を参照)
バスケットデータの系列は次のようなもの
\[\langle(a) (abc) (ac) (d) (cf)\rangle\]
第1回目の取引ではアイテムaのみを,第2回目の取引ではアイテムa,b,およびcを購入したことを表す.
この系列の集合が系列データ.

この系列について包含関係を考える.
系列 \(\langle a_1\ldots a_n\rangle\) が \(\langle b_1\ldots b_m\rangle\) に含まれるとは,\(a_1\subseteq b_{i_1}\ldots a_n\subseteq b_{i_n}\) を満たすような整数 \(i_1\lt\cdots\lt i_n\) が存在すること.系列の集合中で,系列 s が極大であるとは s が他のどの系列にも含まれないこと.

例えば,\(\langle(c)(de)(h)\rangle\) は \(\langle(g)(ch)(i)(def)(h)\rangle\) に含まれる.なぜなら,\((c)\subseteq(ch)\),\((de)\subseteq(def)\),および\((h)\subseteq(h)\) だから.
しかし,\(\langle(c)(e)\rangle\) と \(\langle(e)(c)\rangle\) には互いに包含関係はない.

ある系列 s が,系列データ中の系列 t を支持するとは s が t に含まれること.系列データ中で,系列 s を支持するデータの割合を支持度 (support) という.

''系列パターン (sequential pattern)'' のマイニングとは,支持度が最小支持度以上の極大な系列を全て列挙すること.

> -- しましま

**関連項目 [#c997b5da]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.
-[[sequential data]]
#br
-[[系列パターン]]
-[[sequential pattern]]
#br
-[[データマイニング]]
-[[頻出パターンマイニング]]
-[[バスケットデータ]]
-[[AprioriAll]]
-[[PrefixSpan]]
-[[Minepi]]
-[[Winepi]]
#br
-[[検索:系列パターン 系列データ]]

**リンク集 [#mdd05429]

//関連するWWW資源があればリンクしてください.

**関連文献 [#qaba0466]

//この%項目%に関連する書籍や論文を紹介してください.

-[[Book/Data Mining - Concepts and Techniques]] 8.3節
- "A taxonomy of sequential pattern mining algorithms" ACM Computing Surveys, Volume 43, Issue 1 (2010)~
[[GoogleScholarAll:A taxonomy of sequential pattern mining algorithms]]
-[[K.Rieck "Similarity measures for sequential data" Interdisciplinary Reviews (2004)>http://dx.doi.org/10.1002/widm.36]]~
[[GoogleScholarAll:Similarity measures for sequential data]]
-系列パターンのマイニング問題の基本文献~
R.Agrawal and R.Srikant, "Mining Sequential Patterns", Proc. of The 11th Int'l Conf. on Data Engineering, pp.3-14 (1995)~
[[GoogleScholarAll:Mining Sequential Patterns]]

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS