- 二つの確率変数の間の関連度合いを表す尺度 \(\rho\) で,
\(-1\le\rho\le1\) を満たすように定義したものである.
- Web で「相関係数」を調べる人は多い.
- 単に相関係数と言えば,Pearsonの積率相関係数
\[\rho_P=\frac{\mathrm{E}_{X,Y}[(X-\mu_X)(Y-\mu_Y)]}{\sqrt{\mathrm{E}_X[(X-\mu_X)^2]}\sqrt{E_Y[(Y-\mu_Y)^2]}}\]
を指す. ただし \(\mu_X=E_X[X], \mu_Y=E_Y[Y]\)
- \(Y=a X+b\) のような線形の関係があるとき,\(0<a\)なら \(\rho_P=1\), \(a<0\) なら \(\rho_P=-1\) となる.
- \(\rho_P\)は二つのベクトルの間のなす角の cos とみなすことができる.
- サンプルから計算される相関係数の場合が簡単で,サンプルからそれぞれの平均値を引いた \(X\) のベクトルと \(Y\) のベクトルの間の内積をそれらの長さで割ったものになっている.
- 一般の場合は \(E_{X,Y}\)で定義される内積によって確率変数の間の内積を定義すれば同様.
- \(X, Y\) が結合正規分布のとき,その密度関数は
\[p(X,Y) = \frac{1}{2\pi\sqrt{1-\rho_P^2}}\exp\biggl(-\frac{(X-\mu_X)^2-2\rho_P (X-\mu_X) (Y-\mu_Y)+(Y-\mu_Y)^2}{2(1-\rho_P^2)}\biggr)\]
と書け,\(X, Y\) の間の相互情報量は
\[I(X; Y) = -\frac{1}{2}\ln(1-\rho_P^2)\]
で測ることができる.
- 他の確率変数の影響を取り除いた相関を見るためには偏相関係数を用いる.
- 順位統計に基づく相関係数については順位相関係数を参照. 非正規性の強い場合や外れ値がある場合に用いることが多い.
--あかほ
関連項目†
リンク集†
関連文献†
Last-modified: 2010-02-11 (木) 16:13:00