- 追加された行はこの色です。
- 削除された行はこの色です。
- 特徴選択 へ行く。
* 特徴選択 (feature selection) [#b1d58a7e]
\(k\)個の特徴量(属性)のベクトルで記述されている対象に機械学習の手法を適用するとする.\(k\)個の特徴量を全て利用せず,その中で有用なものを選び出すのが特徴選択.その目的は次の二つ:
- 目的変数と無関係な特徴量を使わないことで予測精度を向上させる.
- 学習された関数を,定性的に解釈しやすくする.
その実現手法は次の二つに分けられる:
- フィルター法:目的変数と各特徴量との[[情報ゲイン>特徴選択/情報ゲイン]]などの,特徴の良さの規準を使って選択する.
- ラッパー法:特徴量の部分集合を使って実際に学習アルゴリズムを適用し,交差確認法などで求めた汎化誤差を最小にする特徴量の部分集合を選択する.
学習アルゴリズムを適用する必要があるラッパー法の方が予測精度は向上するが,フィルター法の方がはるかに高速.
特徴量が\(k\)個あるとき,全部で \(2^k-1\)個の特徴量の部分集合がある.
これら全てを検証することは計算量的に困難なので次のいずれかのアプローチが採用される.
-backward stepwise selection:\(k\)個の特徴がある状態から,最も不要な特徴を一つずつ取り除く
-forward stepwise selection:有用な特徴を一つずつ追加していく
特徴の有用さを測る規準としては[[情報ゲイン>特徴選択/情報ゲイン]]がよく用いられる.
その他には,Gini係数やχ二乗検定なども用いられる.
>-- しましま
**関連項目 [#k39bc246]
//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.
-[[feature selection]]
-[[属性選択]]
-[[attribute selection]]
#br
-[[backward stepwise selection]]
-[[forward stepwise selection]]
#br
-[[特徴選択/情報ゲイン]]
-[[特徴抽出]]
-[[醜いアヒルの子の定理]]
-[[次元の呪い]]
-[[交差確認]]
-[[モデル選択]]
-[[情報量規準]]
#br
-[[検索:特徴選択]]
**リンク集 [#r210817c]
//関連するWWW資源があればリンクしてください.
-[[Weka]]:ラッパー法による特徴選択なども組み込まれている.
#br
-[[Wikipedia:Feature_selection]]
*** Freeware [#y865baac]
-[[mloss:attribute-selection]], [[mloss:feature-selection]]
**関連文献 [#w63402bf]
//この%項目%に関連する書籍や論文を紹介してください.
-I.Guyon and A.Elisseeff "An Introduction to Variable and Feature Selection" JMLR, vol.3 (2003)~
[[GoogleScholarAll:An Introduction to Variable and Feature Selection]]
-[[G.Forman "An Extensive Empirical Study of Feature Selection Metrics for Text Classification" vol.3, pp.1289-1305 (2003)>http://jmlr.csail.mit.edu/papers/v3/forman03a.html]]~
[[GoogleScholarAll:An Extensive Empirical Study of Feature Selection Metrics for Text Classification]]
-[[Book/人工知能学事典]] 13-9章
-[[Book/わかりやすいパターン認識]] 6.1章
-[[Book/The Elements of Statistical Learning]] 3.4章
-[[Book/データマイニングの基礎]] 4.2節
-[[Book/Data Mining - Concepts and Techniques]] 2.5.2節