二値変数とは二つの値をとりうるカテゴリ変数.数値として扱う場合は 0/1 または +1/-1 で符号化する.
対称な二値変数: 男性/女性などどちらの値も同じ重みの二値変数.男性=0,女性=1と符号化しても,男性=1,女性=0 と符号化しても類似度などが変化しないようにする.
indicatingな二値変数: ある性質(例:クエリのレコードへの適合)を持つか,持たないかという重要性に差がある二値変数.ある性質があるときを1,そうでないときを0と符号化したなら,二つの二値変数が両方とも1であるときの方が,両方とも0であるときより類似しているように符号化する.
\(m\)個の0/1の値をとる二値変数のベクトル \(\mathbf{x}\) と \(\mathbf{y}\) の類似度を考える. \(i=1,\ldots,m\)について,\(x_i=1\) かつ \(y_i=1\) となる要素の数を \(a_{11}\) と定義. \(a_{01}\),\(a_{10}\),\(a_{00}\) も同様に定義. 定義から \(a_{11}+a_{01}+a_{10}+a_{00}=m\).
対称な二値変数ベクトルの類似度
indicatingな二値変数ベクトルの類似度
--しましま