不均衡データ - 機械学習の「朱鷺の杜Wiki」

[ トップ ] [ 編集 | 凍結 | 差分 | 履歴 | 添付 | リロード ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ | ログイン ]

不均衡データ (imbalanced data)†

識別問題において，各クラスのデータが生じる確率に大きな差がある場合．例えば，二値識別問題で正例が 1% で，負例が 99% といった状況．はずれ値検出を識別問題として解く場合などが該当する．こうしたデータについては，予測精度が非常に低下する場合があることが知られている．

文献1は，人工データに対してニューラルネット系の手法と適用して実験．不均衡データに対する対策は次の三種類

少ない方のクラスをオーバーサンプリングしてもう一方のクラスの大きさに合わせる
大きい方のクラスをサブサンプリングしてもう一方のクラスの大きさに合わせる
一方のクラスを無視して，もう一方のクラスをカバーするような規則を獲得

※ 各クラスごとに異なる損失を考えるコストを考慮した学習も 1 や 2 と同様の対策とみなせる

実験的に次のような結果を報告している

線形分離できる単純な問題では不均衡データの問題は生じないが，各クラスが複数の部分クラスで構成される場合には問題を生じる
データ全体の量が増えても不均衡データの問題は解消できない
サンプリングを使う二つの方法は，複雑なクラスに対して有効．また，データ数が多いときはサブサンプリングする方が良い．
一方のクラスを認識する場合には，多数派クラスの方を認識すべき

文献2は，各クラスが部分クラスで構成されているときに不均衡データ問題が生じる原因を実験的に調査．

小さなクラスを部分クラスに分けることで，各部分クラスの事例数が極端に減ることが問題としている．クラスごとではなく，各部分クラスをクラスタリングなどで見つけて識別するといった対策について論じている．

-- しましま

関連項目†

リンク集†

関連文献†

文献1
N.Japkowicz "Learning from Imbalanced Data Sets: A Comparison of Various Strategies" AAAI2000 Workhop: Learning from Imbalanced Data Sets
GoogleScholarAll:Learning from Imbalanced Data Sets: A Comparison of Various Strategies
文献2
N.Japkowicz "Class Imbalances: Are we Focusing on the Right Issue?" ICML2003 Workhop: Learning from Imbalanced Data Sets II
GoogleScholarAll:Class Imbalances: Are we Focusing on the Right Issue?

朱鷺の杜Wiki

参加しよう

Wiki超入門
練習用ページ
数式の表示
こびとさん
編集用ID: ibis
パスワード: 「VC次元」のVのフルスペルで最初だけ大文字

最新の30件
2024-04-13
- python
2024-04-09
- K-NEL
- K-NEL/errata
2023-11-22
- PRML/errata2
2023-11-21
- PRML/errata1
2023-11-01
- しましま/IBIS2023
2023-10-29
- IBIS
2023-06-16
- 人工知能学会全国大会
2023-06-11
- しましま/人工知能学会全国大会2023
2023-03-28
- Book
2022-11-27
- 朱鷺の社
2022-11-24
- しましま/IBIS2022
2022-07-08
- AutoTicketLinkName
2022-06-17
- しましま/人工知能学会全国大会2022
2021-11-13
- しましま/IBIS2021
2021-10-29
- 回帰分析
2021-06-11
- しましま/人工知能学会全国大会2021
2021-03-07
- MenuBar
2021-02-15
- python/numpy
2020-12-22
- 特異値分解
2020-12-18
- complement naive Bayes
2020-11-27
- しましま/IBIS2020
2020-10-17
- Paper/bias-on-the-web
2020-07-16
- F値
2020-06-30
- DataSet
2020-06-24
- バイアス-バリアンス
2020-06-10
- Paper
2020-03-15
- PRML
- PRML/link
2020-01-13
- Wiki超入門

カウンタ

累計: 20025
今日: 4
昨日: 0

Last-modified: 2010-02-11 (木) 16:12:37