相関ルール (association rule)

(バスケットデータの項目の記号を参照)

アイテム集合 \(X\subseteq\mathcal{I}\) が,トランザクション \(T\) を含むとは \(X\subseteq T\) であること.

アイテム集合 \(X\subseteq\mathcal{I}\) について,\(\mathrm{count}(X)\) は,バスケットデータ \(D\)中のトランザクションで,\(X\) を含むものの個数.

\(X,Y\subseteq\mathcal{I}\) が \(X\cap Y=\emptyset\) であるとする.相関ルール(association rule)は\(X\Rightarrow Y\) の形式で,「\(X\) を含むトランザクションは \(Y\) も含む」ことを示す.論理学でいう含意にあたる. \(X\) を前提部(antecedent),\(Y\) を結論部(consequent) と呼ぶ.

相関ルールの評価指標には次のようなものがある.

  • 支持度 (support):全トランザクション数に対する,\(X\) と \(Y\) とを共に含むトランザクション数の比.\(\Pr[X,Y]\) に相当. \[\mathrm{support}(X)=\frac{\mathrm{count}(X)}{|D|}\] \[\mathrm{support}(X\Rightarrow Y)=\frac{\mathrm{count}(X\cup Y)}{|D|}\]
  • 確信度 (confidence):\(X\) を満たすトランザクション数に対する, \(X\) と \(Y\) を共に含むトランザクション数の比.\(\Pr[Y|X]\) に相当. \[\mathrm{confidence}(X\Rightarrow Y)=\frac{\mathrm{count}(X\cup Y)}{\mathrm{count}(X)}=\frac{\mathrm{support}(X\Rightarrow Y)}{\mathrm{support}(X)}\]
  • リフト (lift):\(\Pr[Y,X]/\Pr[X]\Pr[Y]\) に相当. \[\mathrm{lift}(X\Rightarrow Y)=\frac{\mathrm{confidence}(X\Rightarrow Y)}{\mathrm{support}(Y)}\]

支持度と確信度が一定以上になるような相関ルールを列挙する解析がよく行われる. 例外を含むものや,バスケットデータ時系列を扱うといった拡張もある.

-- しましま

関連項目

リンク集

Freeware

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:13:00 (2491d)