識別問題において,各クラスのデータが生じる確率に大きな差がある場合.例えば,二値識別問題で正例が 1% で,負例が 99% といった状況.はずれ値検出を識別問題として解く場合などが該当する.こうしたデータについては,予測精度が非常に低下する場合があることが知られている.
文献1は,人工データに対してニューラルネット系の手法と適用して実験. 不均衡データに対する対策は次の三種類
※ 各クラスごとに異なる損失を考えるコストを考慮した学習も 1 や 2 と同様の対策とみなせる
実験的に次のような結果を報告している
文献2は,各クラスが部分クラスで構成されているときに不均衡データ問題が生じる原因を実験的に調査.
小さなクラスを部分クラスに分けることで,各部分クラスの事例数が極端に減ることが問題としている.クラスごとではなく,各部分クラスをクラスタリングなどで見つけて識別するといった対策について論じている.
-- しましま