系列データ

系列データ (sequential data)†

同質のデータを直列に並べたデータをさし，DNA系列や，文字列などがある．さらに，データマイニング分野では以下のようなバスケットデータの系列データもある．

（用語と記号はバスケットデータの項目を参照）バスケットデータの系列は次のようなもの \[\langle(a) (abc) (ac) (d) (cf)\rangle\] 第1回目の取引ではアイテムaのみを，第2回目の取引ではアイテムa，b，およびcを購入したことを表す．この系列の集合が系列データ．

この系列について包含関係を考える．系列 \(\langle a_1\ldots a_n\rangle\) が \(\langle b_1\ldots b_m\rangle\) に含まれるとは，\(a_1\subseteq b_{i_1}\ldots a_n\subseteq b_{i_n}\) を満たすような整数 \(i_1\lt\cdots\lt i_n\) が存在すること．系列の集合中で，系列 s が極大であるとは s が他のどの系列にも含まれないこと．

例えば，\(\langle(c)(de)(h)\rangle\) は \(\langle(g)(ch)(i)(def)(h)\rangle\) に含まれる．なぜなら，\((c)\subseteq(ch)\)，\((de)\subseteq(def)\)，および\((h)\subseteq(h)\) だから．しかし，\(\langle(c)(e)\rangle\) と \(\langle(e)(c)\rangle\) には互いに包含関係はない．

ある系列 s が，系列データ中の系列 t を支持するとは s が t に含まれること．系列データ中で，系列 s を支持するデータの割合を支持度 (support) という．

系列パターン (sequential pattern) のマイニングとは，支持度が最小支持度以上の極大な系列を全て列挙すること．