\(k\)個の特徴量(属性)のベクトルで記述されている対象に機械学習の手法を適用するとする.\(k\)個の特徴量を全て利用せず,その中で有用なものを選び出すのが特徴選択.その目的は次の二つ:
- 目的変数と無関係な特徴量を使わないことで予測精度を向上させる.
- 学習された関数を,定性的に解釈しやすくする.
その実現手法は次の二つに分けられる:
- フィルター法:目的変数と各特徴量との情報ゲインなどの,特徴の良さの規準を使って選択する.
- ラッパー法:特徴量の部分集合を使って実際に学習アルゴリズムを適用し,交差確認法などで求めた汎化誤差を最小にする特徴量の部分集合を選択する.
学習アルゴリズムを適用する必要があるラッパー法の方が予測精度は向上するが,フィルター法の方がはるかに高速.
特徴量が\(k\)個あるとき,全部で \(2^k-1\)個の特徴量の部分集合がある.
これら全てを検証することは計算量的に困難なので次のいずれかのアプローチが採用される.
特徴の有用さを測る規準としては情報ゲインがよく用いられる.
その他には,Gini係数やχ二乗検定なども用いられる.
-- しましま
関連項目 †
リンク集 †
関連文献 †