* 不均衡データ (imbalanced data) [#mbb13b00]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

識別問題において,各クラスのデータが生じる確率に大きな差がある場合.例えば,二値識別問題で正例が 1% で,負例が 99% といった状況.はずれ値検出を識別問題として解く場合などが該当する.こうしたデータについては,予測精度が非常に低下する場合があることが知られている.

文献1は,人工データに対してニューラルネット系の手法と適用して実験.
不均衡データに対する対策は次の三種類
+ 少ない方のクラスをオーバーサンプリングしてもう一方のクラスの大きさに合わせる
+ 大きい方のクラスをサブサンプリングしてもう一方のクラスの大きさに合わせる
+ 一方のクラスを無視して,もう一方のクラスをカバーするような規則を獲得

※ 各クラスごとに異なる損失を考えるコストを考慮した学習も 1 や 2 と同様の対策とみなせる

実験的に次のような結果を報告している
- 線形分離できる単純な問題では不均衡データの問題は生じないが,各クラスが複数の部分クラスで構成される場合には問題を生じる
- データ全体の量が増えても不均衡データの問題は解消できない
- サンプリングを使う二つの方法は,複雑なクラスに対して有効.また,データ数が多いときはサブサンプリングする方が良い.
- 一方のクラスを認識する場合には,多数派クラスの方を認識すべき

文献2は,各クラスが部分クラスで構成されているときに不均衡データ問題が生じる原因を実験的に調査.

小さなクラスを部分クラスに分けることで,各部分クラスの事例数が極端に減ることが問題としている.クラスごとではなく,各部分クラスをクラスタリングなどで見つけて識別するといった対策について論じている.

> -- しましま

** 関連項目 [#g1096da2]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.
-[[imbalanced data]]
#br
-[[識別]]
-[[はずれ値検出]]
-[[コストを考慮した学習]]
#br
-[[検索:不均衡データ クラス不均衡]]

** リンク集 [#f163cbd5]

//関連するWWW資源があればリンクしてください.
-[[AAAI2000 Workshop: Learning from Imbalanced Data Sets>http://www.aaai.org/Library/Workshops/ws00-05.php]]
-[[ICML2003 Workshop: Learning from Imbalanced Data Sets II>http://www.site.uottawa.ca/~nat/Workshop2003/description.html]]
-[[SIGKDD Explorations, Special Issue on Learning from Imbalanced Datasets>http://www.sigkdd.org/explorations/issue.php?volume=6&issue=1&year=2004&month=06]]

** 関連文献 [#ndba2f6b]

//この%項目%に関連する書籍や論文を紹介してください.

-文献1~
N.Japkowicz "Learning from Imbalanced Data Sets: A Comparison of Various Strategies" AAAI2000 Workhop: Learning from Imbalanced Data Sets~
[[GoogleScholarAll:Learning from Imbalanced Data Sets: A Comparison of Various Strategies]]
-文献2~
N.Japkowicz "Class Imbalances: Are we Focusing on the Right Issue?" ICML2003 Workhop: Learning from Imbalanced Data Sets II~
[[GoogleScholarAll:Class Imbalances: Are we Focusing on the Right Issue?]]

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS