広義にはクラス分類手法一般をさすが,特に線形判別分析 (Fisher判別分析; linear discriminant analysis) のことを示す場合が多い.
これは,クラスと属性ベクトルの対の形式のデータが与えられたとき,クラス間の分散を最大化するような教師ありの次元削減法.
データは \(d\)次元のベクトル \(x\) で表される. クラス数 \(C\ge2\),総データ数 \(n\) のデータ集合 \(\mathcal{X}=\{x\}\),データ全体の平均値は \(\bar{x}\).
クラス \(i\) のデータ集合を \(\mathcal{X}_i\),そのデータ数を \(n_i\),そのデータの平均を \(\bar{x}_i\).
このとき,群内分散 \(W\) と,群間分散 \(B\) は次式. \[W=\frac{1}{n}\sum_{i=1}^C \sum_{x\in\mathcal{X}_i}(x-\bar{x}_i)(x-\bar{x}_i)^\top\] \[B=\frac{1}{n}\sum_{i=1}^C n_i (\bar{x}_i-\bar{x})(\bar{x}_i-\bar{x})^\top\]
ここで \(W^{-1}B\) の大きな固有値 \(C-1\)個 \(\lambda_1,\ldots,\lambda_{C-1}\) に対応する固有ベクトルを\(A_1,\ldots,A_{C-1}\)とする.これを用いて,\(d\times(C-1)\)行列 \(A=[A_1,A_2,\ldots,A_{C-1}]\) を定める.
この行列を用いてデータ\(x\) を \(A^\top x\) で\(C-1\)次元空間に次元削減する.
これは,次の群内と群間の分散の比を最大化して,各クラスのデータが互いに分離されるような変換になっている. \[\frac{\det(A^\top BA)}{\det(A^\top WA)}\]
2クラスの場合の判別分析の群間/群内分散の比はバリエーションはないが,3クラス以上だと他にも何種類かの規準がある.
-- しましま