complement naive Bayes

単純ベイズで文書分類をする場合によく用いられるのが多項モデル．単純ベイズでは，文書 \(\mathbf{x}_i\) が与えられたとき，クラス \(c\) になる確率は次式 \[\Pr[c|\mathbf{x}]\propto\Pr[\mathbf{x}|c]\Pr[c]\] \(w\) 種類の語があるとき，文書ベクトル \(\mathbf{x}_i=(x_{i1},x_{i2},\ldots,x_{iw})\) の要素は，語 \(j\) が文書 \(i\) 内で生じる回数．多項モデルでは，この要素の頻度が多項分布に従うとする．クラス \(c\) の任意の文書のある語を選んだとき，その語が語 \(j\) である確率を \(\theta_{cj}\) で表す．すると，文書 \(\mathbf{x}_i\) は次式で決まるクラスに分類される \[\arg\max_c=\ln\Pr[c] + \sum_jx_{ij}\ln(\theta_{cj})\]

↑

complement naive Bayes †

多項モデルだと，文書数の多いクラスで \(\theta_{cj}\) が大きくなりやすいバイアスをもつ．そこで，クラス \(c\) を除いた任意の文書の中からある語を選んだとき，それが語 \(j\) である確率を \(\hat{\theta}_{cj}\) を導入するのが complement naive Bayes．多クラスの分類問題では，あるクラスの文書数の分布よりも，あるクラス以外の文書数の分布の方が，一般に偏りは小さいということを利用したもの．具体的な分類規則は次式： \[\arg\max_c=\ln\Pr[c] - \sum_j x_{ij} \ln(\hat{\theta}_{cj})\] 基本文献では，この他にも幾つかヒューリスティックを導入して改良を行い，単純ベイズでもSVMと同程度の精度で文書分類ができると主張．