正準相関分析 (canonical correlation analysis)

複数の確率変数間に共通して含まれる情報を抽出するための多変量解析手法. -- あかほ

  • \(X\) は \(p\)次元のデータを\(n\)個集めた \(n\times p\)のデータ行列.
  • \(Y\) は \(q\)次元のデータを\(n\)個集めた \(n\times q\)のデータ行列.\(p\le q\) としておく.

\(X\)と\(Y\)の同じ行のデータには対応がある. \(X\)中の\(p\)個の変数と,\(Y\)中の\(q\)個の変数との間の相関関係を見つける.

以下の共分散行列を計算

  • \(S_{XX}=\frac{1}{n}\tilde{X}^\top\tilde{X}\)
  • \(S_{YY}=\frac{1}{n}\tilde{Y}^\top\tilde{Y}\)
  • \(S_{XY}=\frac{1}{n}\tilde{X}^\top\tilde{Y}\)

ただし,\(\tilde{X}\) と \(\tilde{Y}\)は,それぞれ \(X\)と\(Y\)から,それぞれの列方向の平均値を,各要素から引いた平均偏差行列.

\(p\)次元ののベクトル \(\mathbf{a}\) と\(q\)次元ののベクトル \(\mathbf{b}\) を導入.これらのベクトルと,\(\tilde{X}\)や\(\tilde{Y}\)とを一次結合したベクトルの相関を考える. \[r(\mathbf{a},\mathbf{b})=\frac{\mathbf{a}^\top S_{XY} \mathbf{b}}{\sqrt{\mathbf{a}^\top S_{XX} \mathbf{a}}\sqrt{\mathbf{b}^\top S_{YY} \mathbf{b}}}\] この式を最大化する\(\mathbf{a}\)と\(\mathbf{b}\)を,第1正準相関ベクトルと呼び,\(\mathbf{a}_1\)と\(\mathbf{b}_1\)で表す.

第\(k\)正準相関ベクトル(\(k=1,\ldots,p\))は, \[\mathbf{a}_i^\top S_{XX} \mathbf{a}_i=1,\qquad\mathbf{b}_i^\top S_{YY} \mathbf{b}_i=1\] を満たすものの中で,\(r(\mathbf{a},\mathbf{b})\) を最大化するように求める.

このとき,任意の\(i\ne j\)について,\(\mathbf{a}_i^\top S_{XY} \mathbf{b}_j=0\) も成立する.すなわち,変換後のベクトルが直交する.

正準相関ベクトルは次の特異値分解により計算できる \[S_{XX}^{-1/2} S_{XY} S_{YY}^{-1/2}=A \Lambda B^\top\] \(A\) と \(B\) は直交行列,\(\Lambda\) は固有値を対角要素に持つ行列. このとき,\(A\) と \(B\) の列ベクトルが,それぞれ \(\mathbf{a}_k\) と \(\mathbf{b}_k\) になる.

-- しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-07-29 (木) 15:01:26 (2323d)