\(k\)個の特徴量(属性)のベクトルで記述されている対象に機械学習の手法を適用するとする.\(k\)個の特徴量を全て利用せず,その中で有用なものを選び出すのが特徴選択.その目的は次の二つ:
その実現手法は次の二つに分けられる:
学習アルゴリズムを適用する必要があるラッパー法の方が予測精度は向上するが,フィルター法の方がはるかに高速.
特徴量が\(k\)個あるとき,全部で \(2^k-1\)個の特徴量の部分集合がある. これら全てを検証することは計算量的に困難なので次のいずれかのアプローチが採用される.
特徴の有用さを測る規準としては情報ゲインがよく用いられる. その他には,Gini係数やχ二乗検定なども用いられる.
-- しましま