マルチラベル分類問題は,多クラス分類と同様に,クラスのとりうる値の数(定義域の大きさ)が3以上.しかし,通常の多クラス分類では,各事例はどれか一つのクラスに分類される.一方,マルチラベル分類では,一つの事例が複数のクラスに同時に分類されうる.
例えば,Webページを分類を考えたとき,機械学習について書かれたページを「機械学習」と「統計」の両方のクラスに同時に分類する.
クラスの定義域を \(\mathcal{C}\) とすると,多クラスの訓練事例は \((c_i\in\mathcal{C},\mathbf{x_i})\) の形式だが,マルチラベルでは定義域の部分集合を使った \((C\subseteq\mathcal{C},\mathbf{x}_i)\) の形式.
文献1で照会された問題を変換する方法を紹介
- binary relevance:あるラベルがあるかないかの複数の2値問題に変換
- single label learning:複数付いているラベルの一つのラベルだけを残し他は無視.各ラベルの付く度合いで順位付け.
- copy and copy weight:2個ラベルがついた事例があったら,二つにコピーして,それぞれの重みを1/2ずつにする
- ranking by pairwise comparison:二つのラベルを考えて,一方だけが付く場合に正負のラベルを各事例について考える.
- calibrated label ranking:pairwise comparisonに加え,ラベル付けの順位を扱える目的で,二値の仮想ラベルを加える.
- label power set:ラベルのあり・なしをビット列で表し,\(2^n\)個(\(n\) はラベル数)のラベル集合に変換
- pruned set:label power set で低頻度のラベルの組み合わせを無視する改良
- random k-labelsets:大きなラベル集合を複数の集合にわけ,それぞれをlabel power setで解く
- ensembles of pruned sets:いろいろなpruneの仕方でアンサンブル
その他,マルチラベル専用に既存アルゴリズムを拡張した手法も多数ある.
上記のような変換を組み込む方法の他,生成モデルを考えるものや,テンソル分解などを使う方法などがある.
-- しましま
関連項目†
リンク集†
関連文献†