* 主成分分析 (principal components analysis) [#v30a2601]

高次元のデータを,データの分散が最大になるように,低次元のデータに変換する方法.教師なしの次元削減の手法として最も一般的.

p次元のデータベクトル \(\mathbf{x}_i\) を\(n\)個集めて,
\(n\times p\)のデータ行列 \(X\) を生成.

平均ベクトルは \(\mathbf{\bar{x}}_i=(1/n)\sum_i^n \mathbf{x}_i\).
\(\mathbf{1}_n\) を長さが \(n\) の1ベクトルとして,\(\tilde{X}=X - \mathbf{1}_n \mathbf{\bar{x}}^\top\).

共分散行列は \(S=\frac{1}{n}\tilde{X}^\top\tilde{X}\).

共分散行列を次式のように分解する.
\[S=A \Lambda A^\top\]
\(\Lambda\) は,\(S\) の固有値 \(\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_p\) を対角要素とする対角行列.

\(A=[\mathbf{a}_1,\mathbf{a}_2,\ldots,\mathbf{a}_p]\) は固有値 \(\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_p\) に対応する固有ベクトル.\(A\) は正規直交行列になる.

\(\mathbf{a}_i\) を''第i主成分'' (i-th principal component)といい,データの分散をi番目に最大化する成分を表す.

\(A_k=[\mathbf{a}_1,\mathbf{a}_2,\ldots,\mathbf{a}_k]\) (ただし,\(k\le p\))なる行列を作ると,\(A_k^\top\mathbf{x}\) で\(k\)次元空間へ次元削減できる.

i番目の主成分方向への分散の大きさは固有値 \(\lambda_i\) で表され,\(\lambda_i/\sum_j^p \lambda_j\) を''寄与率''(contribution ratio)とよぶ.この寄与率を \(1,\ldots,i\)番目までについての総和をとったものを累積寄与率という.これは,元のデータの分散のうち,\(i\)番目までの主成分が保存している分散の情報を表す.よって,累積寄与率は,縮約する次元の数を決める基準に利用できる.

逆に,分散が小さくまとまった部分空間を求めたいときは,固有値の小さな方から成分を選ぶ.これを,minor component analysis (MCA) という.

自然言語処理分野では,latent semantic analysis とも呼ばれる.文書を語ベクトルで表し,主成分分析で次元削減すると,共起している意味の近い語を抽象的に表す圧縮された要素で構成された文書ベクトルが得られるという考え.

> -- しましま

** 関連項目 [#b0e4bc6e]
-[[principal components analysis]]
-[[PCA]]
#br
-[[寄与率]]
-[[contribution ratio]]
#br
-[[多変量解析]]
-[[次元削減]]
-[[probabilistic latent semantic analysis]]
-[[正規分布]]
-[[分散]]
-[[情報量]]
-[[特異値分解]]
-[[因子分析]]
-[[部分空間法]]
-[[独立成分分析]]
-[[固有値]]
#br
-[[検索:主成分分析 PCA]]

** リンク集 [#d8385f22]

-[[主成分分析>Aoki:lecture/PCA/index.html]]: 統計学自習ノート@青木繁伸
-[[RjpWiki:stats(R 統計)パッケージ中のオブジェクト一覧]] prcomp関数で主成分分析ができる
-[[Latent Semantic Analysis>http://lsa.colorado.edu/]]@ CU Boulder:自然言語処理ではLSAとも呼ばれる.
-[[Weka]]: 属性選択手法にPCAがある
#br
-[[Wikipedia:Principal_components_analysis]]
-[[PlanetMath:PrincipleComponentsAnalysis]]

*** Freeware [#q32d85b5]

-[[mloss:pca]]
-[[jLSI>http://tcc.itc.it/research/textec/tools-resources/jlsi.html]]:java Latent Semantic Analysis

** 関連文献 [#l39403dd]

-[[Book/計算統計I(統計科学のフロンティア11)]] I章 4.2節
-[[Book/わかりやすいパターン認識]] 6.3章
-[[Book/フリーソフトでつくる音声認識システム]] 3.3.2節
-[[Book/The Elements of Statistical Learning]] 14.5章
-[[Book/Data Mining - Practical Machine Learning Tools and Techniques]] 7.3章 Principal components analysis
-[[Book/Data Mining - Concepts and Techniques]] 2.5.3章 Principal Components Analysis
-[[Book/Principles of Data Mining]] 3.6章
-[[Book/Pattern Recognition and Machine Learning]] 12.1節

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS