二値変数 (binary variable)

二値変数とは二つの値をとりうるカテゴリ変数.数値として扱う場合は 0/1 または +1/-1 で符号化する.

対称な二値変数: 男性/女性などどちらの値も同じ重みの二値変数.男性=0,女性=1と符号化しても,男性=1,女性=0 と符号化しても類似度などが変化しないようにする.

indicatingな二値変数: ある性質(例:クエリのレコードへの適合)を持つか,持たないかという重要性に差がある二値変数.ある性質があるときを1,そうでないときを0と符号化したなら,二つの二値変数が両方とも1であるときの方が,両方とも0であるときより類似しているように符号化する.

二値変数の類似度

\(m\)個の0/1の値をとる二値変数のベクトル \(\mathbf{x}\) と \(\mathbf{y}\) の類似度を考える. \(i=1,\ldots,m\)について,\(x_i=1\) かつ \(y_i=1\) となる要素の数を \(a_{11}\) と定義. \(a_{01}\),\(a_{10}\),\(a_{00}\) も同様に定義. 定義から \(a_{11}+a_{01}+a_{10}+a_{00}=m\).

対称な二値変数ベクトルの類似度

indicatingな二値変数ベクトルの類似度

  • Jaccard係数 \[\frac{a_{11}}{a_{11}+a_{10}+a_{01}}\] \(X\) と \(Y\) を,それぞれ,ベクトル \(\mathbf{x}\) と \(\mathbf{y}\) の要素が1であるものの要素の集合とすると次式でも表せる: \[\frac{|X\cap Y|}{|X\cup Y|}\] 化学・生物学分野では,これをTanimoto係数とも呼ぶこともある. これは,ベクトルの類似度 \[\frac{\mathbf{x}\cdot\mathbf{y}}{||\mathbf{x}||+||\mathbf{y}||-\mathbf{x}\cdot\mathbf{y}}\] を0/1の二値変数ベクトルに適用して得られる. また別に \(\frac{a_{01}}{a_{00}+a_{10}-a_{01}}\)の非類似度尺度をTanimoto係数と呼ぶこともある.
  • Dice係数 \[\frac{2a_{11}}{(a_{11}+a_{10})+(a_{11}+a_{01})}\]
  • Russell-Rao係数 \[\frac{a_{11}}{m}\]

--しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:12:39 (2494d)