正と負の2クラスの分類問題を考える. 分類器の予測結果と,真の結果に基づいて以下のように分類. 例えば,真に正であるデータで,かつ,予測結果も正であったようなデータ数をTP個とする.
真の結果 | |||
正 | 負 | ||
予測結果 | 正 | TP | FP |
負 | FN | TN |
ROC曲線は,分類器のパラメータを変化させながら,縦軸に \(\frac{TP}{TP+FN}\),横軸に \(\frac{FP}{FP+TN}\) をとった曲線.
左下の (0,0) で始まって,右上の (1,1) で終わる. 横軸が (0,0) から (0,1)まで上昇し,そこから水平に (1,1) まで続く曲線になれば理想的な分類器.
この曲線の良さを要約したものが AUC (area under the curve). ROC曲線の下側の面積で,最良なら 1.0 をとる.
-- しましま