* 二値変数 (binary variable) [#u566bb8e]

二値変数とは二つの値をとりうるカテゴリ変数.数値として扱う場合は 0/1 または +1/-1 で符号化する.

''対称な二値変数'':
男性/女性などどちらの値も同じ重みの二値変数.男性=0,女性=1と符号化しても,男性=1,女性=0 と符号化しても類似度などが変化しないようにする.

''indicatingな二値変数'':
ある性質(例:クエリのレコードへの適合)を持つか,持たないかという重要性に差がある二値変数.ある性質があるときを1,そうでないときを0と符号化したなら,二つの二値変数が両方とも1であるときの方が,両方とも0であるときより類似しているように符号化する.

*** 二値変数の類似度 [#lc32c946]

\(m\)個の0/1の値をとる二値変数のベクトル \(\mathbf{x}\) と \(\mathbf{y}\) の類似度を考える.
\(i=1,\ldots,m\)について,\(x_i=1\) かつ \(y_i=1\) となる要素の数を \(a_{11}\) と定義.
\(a_{01}\),\(a_{10}\),\(a_{00}\) も同様に定義.
定義から \(a_{11}+a_{01}+a_{10}+a_{00}=m\).

''対称な二値変数ベクトルの類似度''
-単純一致係数 (simple matching coefficient)
\[\frac{a_{11}+a_{00}}{m}\]
-Sokal-Sneath係数
\[\frac{2(a_{11}+a_{00})}{a_{11}+a_{00}+m}\]
-Rogers-Tanimoto係数
\[\frac{a_{11}+a_{00}}{a_{11}+a_{00}+2(a_{10}+a_{01})}\]

''indicatingな二値変数ベクトルの類似度''

-Jaccard係数
\[\frac{a_{11}}{a_{11}+a_{10}+a_{01}}\]
\(X\) と \(Y\) を,それぞれ,ベクトル \(\mathbf{x}\) と \(\mathbf{y}\) の要素が1であるものの要素の集合とすると次式でも表せる:
\[\frac{|X\cap Y|}{|X\cup Y|}\]
化学・生物学分野では,これをTanimoto係数とも呼ぶこともある.
これは,ベクトルの類似度
\[\frac{\mathbf{x}\cdot\mathbf{y}}{||\mathbf{x}||+||\mathbf{y}||-\mathbf{x}\cdot\mathbf{y}}\]
を0/1の二値変数ベクトルに適用して得られる.
また別に
\(\frac{a_{01}}{a_{00}+a_{10}-a_{01}}\)の非類似度尺度をTanimoto係数と呼ぶこともある.
-Dice係数
\[\frac{2a_{11}}{(a_{11}+a_{10})+(a_{11}+a_{01})}\]
-Russell-Rao係数
\[\frac{a_{11}}{m}\]

>--しましま

**関連項目 [#rd852a6b]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.

-[[バイナリ変数]]
-[[binary variable]]
#br
-[[単純一致係数]]
-[[simple matching coefficient]]
-Sokal-Sneath係数
-Rogers-Tanimoto係数
-[[Jaccard係数]]
-[[Jaccard coefficient]]
-[[Dice係数]]
-[[Dice coefficient]]
-Russell-Rao係数
#br
-[[距離]]
#br
-[[検索:二値変数 バイナリ変数]]

**リンク集 [#r7f0c30b]

//関連するWWW資源があればリンクしてください.
-[[Wikipedia:Jaccard_index]]

**関連文献 [#cfc4b84d]

//この%項目%に関連する書籍や論文を紹介してください.

- Michel Marie Deza and Elena Deza, "Encyclopedia of Distances" Springer (2009)~
http://dx.doi.org/10.1007/978-3-642-00234-2_1
-サーベイ~
J.Grabmeier and A.Rudolph, "Techniques of Cluster Algorithms in Data Mining", "Data Mining and Knowledge Discovery", vol.6, pp.303-360 (2002)~
[[GoogleScholarAll:Techniques of Cluster Algorithms in Data Mining]]

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS