これらのキーワードがハイライトされています:不均衡データ クラス不均衡

不均衡データ (imbalanced data)

識別問題において,各クラスのデータが生じる確率に大きな差がある場合.例えば,二値識別問題で正例が 1% で,負例が 99% といった状況.はずれ値検出を識別問題として解く場合などが該当する.こうしたデータについては,予測精度が非常に低下する場合があることが知られている.

文献1は,人工データに対してニューラルネット系の手法と適用して実験. 不均衡データに対する対策は次の三種類

  1. 少ない方のクラスをオーバーサンプリングしてもう一方のクラスの大きさに合わせる
  2. 大きい方のクラスをサブサンプリングしてもう一方のクラスの大きさに合わせる
  3. 一方のクラスを無視して,もう一方のクラスをカバーするような規則を獲得

※ 各クラスごとに異なる損失を考えるコストを考慮した学習も 1 や 2 と同様の対策とみなせる

実験的に次のような結果を報告している

文献2は,各クラスが部分クラスで構成されているときに不均衡データ問題が生じる原因を実験的に調査.

小さなクラスを部分クラスに分けることで,各部分クラスの事例数が極端に減ることが問題としている.クラスごとではなく,各部分クラスをクラスタリングなどで見つけて識別するといった対策について論じている.

-- しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:12:37