complement naive Bayes

単純ベイズを用いて文書分類を行うときの改良手法.

多項モデル

単純ベイズで文書分類をする場合によく用いられるのが多項モデル単純ベイズでは,文書 \(\mathbf{x}_i\) が与えられたとき,クラス \(c\) になる確率は次式 \[\Pr[c|\mathbf{x}]\propto\Pr[\mathbf{x}|c]\Pr[c]\] \(w\) 種類の語があるとき,文書ベクトル \(\mathbf{x}_i=(x_{i1},x_{i2},\ldots,x_{iw})\) の要素は,語 \(j\) が文書 \(i\) 内で生じる回数. 多項モデルでは,この要素の頻度が多項分布に従うとする.クラス \(c\) の任意の文書のある語を選んだとき,その語が語 \(j\) である確率を \(\theta_{cj}\) で表す.すると,文書 \(\mathbf{x}_i\) は次式で決まるクラスに分類される \[\arg\max_c=\ln\Pr[c] + \sum_jx_{ij}\ln(\theta_{cj})\]

complement naive Bayes

多項モデルだと,文書数の多いクラスで \(\theta_{cj}\) が大きくなりやすいバイアスをもつ.そこで,クラス \(c\) を除いた任意の文書の中からある語を選んだとき,それが語 \(j\) である確率を \(\hat{\theta}_{ij}\) を導入するのが complement naive Bayes多クラスの分類問題では,あるクラスの文書数の分布よりも,あるクラス以外の文書数の分布の方が,一般に偏りは小さいということを利用したもの. 具体的な分類規則は次式: \[\arg\max_c=\ln\Pr[c] - \sum_j x_{ij} \ln(\hat{\theta}_{cj})\] 基本文献では,この他にも幾つかヒューリスティックを導入して改良を行い,単純ベイズでもSVMと同程度の精度で文書分類ができると主張.

-- しましま

関連項目

Freeware

リンク集

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:11:33 (2494d)