不均衡データ (imbalanced data)

識別問題において,各クラスのデータが生じる確率に大きな差がある場合.例えば,二値識別問題で正例が 1% で,負例が 99% といった状況.はずれ値検出を識別問題として解く場合などが該当する.こうしたデータについては,予測精度が非常に低下する場合があることが知られている.

文献1は,人工データに対してニューラルネット系の手法と適用して実験. 不均衡データに対する対策は次の三種類

  1. 少ない方のクラスをオーバーサンプリングしてもう一方のクラスの大きさに合わせる
  2. 大きい方のクラスをサブサンプリングしてもう一方のクラスの大きさに合わせる
  3. 一方のクラスを無視して,もう一方のクラスをカバーするような規則を獲得

※ 各クラスごとに異なる損失を考えるコストを考慮した学習も 1 や 2 と同様の対策とみなせる

実験的に次のような結果を報告している

  • 線形分離できる単純な問題では不均衡データの問題は生じないが,各クラスが複数の部分クラスで構成される場合には問題を生じる
  • データ全体の量が増えても不均衡データの問題は解消できない
  • サンプリングを使う二つの方法は,複雑なクラスに対して有効.また,データ数が多いときはサブサンプリングする方が良い.
  • 一方のクラスを認識する場合には,多数派クラスの方を認識すべき

文献2は,各クラスが部分クラスで構成されているときに不均衡データ問題が生じる原因を実験的に調査.

小さなクラスを部分クラスに分けることで,各部分クラスの事例数が極端に減ることが問題としている.クラスごとではなく,各部分クラスをクラスタリングなどで見つけて識別するといった対策について論じている.

-- しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:12:37 (2489d)