マルチラベル (multi-label)

マルチラベル分類問題は,多クラス分類と同様に,クラスのとりうる値の数(定義域の大きさ)が3以上.しかし,通常の多クラス分類では,各事例はどれか一つのクラスに分類される.一方,マルチラベル分類では,一つの事例が複数のクラスに同時に分類されうる.

例えば,Webページを分類を考えたとき,機械学習について書かれたページを「機械学習」と「統計」の両方のクラスに同時に分類する.

クラスの定義域を \(\mathcal{C}\) とすると,多クラスの訓練事例は \((c_i\in\mathcal{C},\mathbf{x_i})\) の形式だが,マルチラベルでは定義域の部分集合を使った \((C\subseteq\mathcal{C},\mathbf{x}_i)\) の形式.

解法

文献1で照会された問題を変換する方法を紹介

  • binary relevance:あるラベルがあるかないかの複数の2値問題に変換
  • single label learning:複数付いているラベルの一つのラベルだけを残し他は無視.各ラベルの付く度合いで順位付け.
  • copy and copy weight:2個ラベルがついた事例があったら,二つにコピーして,それぞれの重みを1/2ずつにする
  • ranking by pairwise comparison:二つのラベルを考えて,一方だけが付く場合に正負のラベルを各事例について考える.
  • calibrated label ranking:pairwise comparisonに加え,ラベル付けの順位を扱える目的で,二値の仮想ラベルを加える.
  • label power set:ラベルのあり・なしをビット列で表し,\(2^n\)個(\(n\) はラベル数)のラベル集合に変換
  • pruned set:label power set で低頻度のラベルの組み合わせを無視する改良
  • random k-labelsets:大きなラベル集合を複数の集合にわけ,それぞれをlabel power setで解く
  • ensembles of pruned sets:いろいろなpruneの仕方でアンサンブル

その他,マルチラベル専用に既存アルゴリズムを拡張した手法も多数ある. 上記のような変換を組み込む方法の他,生成モデルを考えるものや,テンソル分解などを使う方法などがある.

-- しましま

関連項目

リンク集

Freeware

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:12:31 (2494d)