complement naive Bayes の変更点 - 機械学習の「朱鷺の杜Wiki」

追加された行はこの色です。
削除された行はこの色です。
complement naive Bayes へ行く。
#author("2020-12-18T01:59:49+00:00","default:ibis","ibis")
* complement naive Bayes [#m2bcfda6]

//ここには %項目の説明を書いてください．よろしければ署名しておいてください．

単純ベイズを用いて文書分類を行うときの改良手法．

*** 多項モデル [#ja60b7dd]

単純ベイズで文書分類をする場合によく用いられるのが多項モデル．
単純ベイズでは，文書 \(\mathbf{x}_i\) が与えられたとき，クラス \(c\) になる確率は次式
\[\Pr[c|\mathbf{x}]\propto\Pr[\mathbf{x}|c]\Pr[c]\]
\(w\) 種類の語があるとき，文書ベクトル \(\mathbf{x}_i=(x_{i1},x_{i2},\ldots,x_{iw})\) の要素は，語 \(j\) が文書 \(i\) 内で生じる回数．
多項モデルでは，この要素の頻度が多項分布に従うとする．クラス \(c\) の任意の文書のある語を選んだとき，その語が語 \(j\) である確率を \(\theta_{cj}\) で表す．すると，文書 \(\mathbf{x}_i\) は次式で決まるクラスに分類される
\[\arg\max_c=\ln\Pr[c] + \sum_jx_{ij}\ln(\theta_{cj})\]

*** complement naive Bayes [#z5ed6a1d]

多項モデルだと，文書数の多いクラスで \(\theta_{cj}\) が大きくなりやすいバイアスをもつ．そこで，クラス \(c\) を''除いた''任意の文書の中からある語を選んだとき，それが語 \(j\) である確率を \(\hat{\theta}_{cj}\) を導入するのが complement naive Bayes．多クラスの分類問題では，あるクラスの文書数の分布よりも，あるクラス以外の文書数の分布の方が，一般に偏りは小さいということを利用したもの．
具体的な分類規則は次式：
\[\arg\max_c=\ln\Pr[c] - \sum_j x_{ij} \ln(\hat{\theta}_{cj})\]
基本文献では，この他にも幾つかヒューリスティックを導入して改良を行い，単純ベイズでも[[SVM]]と同程度の精度で文書分類ができると主張．

> -- しましま

** 関連項目 [#b16147ab]

//英語や同義語のあとに，#brで区切って関連する項目をリストしてください．
-[[クラス分類]]
-[[単純ベイズ]]
-[[多項分布]]

*** Freeware [#t823cffe]

-[[Weka]]：クラス分類アルゴリズムの一つとして実装されている

** リンク集 [#k54b6e54]

//関連するWWW資源があればリンクしてください．

-[[新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ>http://d.hatena.ne.jp/tkng/20081217/1229475900]] @ 射撃しつつ前転

** 関連文献 [#ed4c4a70]

//この%項目%に関連する書籍や論文を紹介してください．

-基本文献~
J.D.M.Rennie, L.Shih, J.Teevan, and D.R.Karger "Tackling the Poor Assumptions of Naive Bayes Text Classification" ICML2003~
[[GoogleScholarAll:Tackling the Poor Assumptions of Naive Bayes Text Classification]]