* latent Dirichlet allocation (LDA) [#fb6c7253]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

[[probabilistic latent semantic analysis]] ([[pLSA]]) を改良した,文書集合の生成モデル.各文書は,\(k\)個の話題に応じて発生した語で構成されている.

以下の過程で,文書に含まれる\(N\)個の語を生成する.
+ \(N\sim\mathrm{Poisson}(\xi)\) … Poisson分布で語数を生成
+ \(\theta\sim\mathrm{Dir}(\alpha)\) … Dirichlet分布で,\(k\)個の話題を生成するモデルのパラメータを生成.
+ \(N\)個のそれぞれの語\(w_n\)について
-- (a) \(z_n\sim\mathrm{Multinomial}(\theta)\) … 多項分布で話題を生成
-- (b) 語\(w_n\)を,話題\(z_n\)で条件付けした分布 \(p(w_n|z_n,\beta)\) から選択

以上の過程を\(M\)回繰り返して,文書集合\(\mathcal{D}\)を生成する.

- パラメータ\(\alpha\)は,話題数\(k\)と同じ大きさのベクトル
- パラメータ\(\beta\)は,話題\(z_n\)で条件付けするので,\(k\times V\)の行列.ただし,\(V\)は可能な語の総数.

話題の混合比\(\theta\),長さ\(N\)の\(z_n\)と\(w_n\)を要素とするベクトル\(\mathbf{z}\)と\(\mathbf{w}\)の生成確率は次式.
\[p(\theta,\mathbf{z},\mathbf{w}|\alpha,\beta)=p(\theta|\alpha)\prod_{n=1}^Np(z_n|\theta)p(w_n|z_n,\beta)\]

*** probabilistic latent semantic analysisとの違い [#m020c331]
[[pLSA]]で文書\(d\)で,語\(w_n\)が生成される確率は
\[p(d,w_n)=p(d)\sum_z p(w_n|z)p(z|d)\]
-語が,\(k\)個の話題を,混合比\(p(z|d)\)で混合した分布から生成されている.
-一方,LDAでは,混合比は\(p(z_n|\theta)\)になる.
-pLSAの混合比は訓練用の文書集合に依存した固定したものだが,LDAはこの混合比は事前分布から生成される.そのため,LDAは訓練用文書集合にないような語も扱える.

> -- しましま

** 関連項目 [#zcb357bd]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.
-[[LDA]]
#br
-[[probabilistic latent semantic analysis]]
-[[生成モデル]]
-[[自然言語処理]]
-[[次元削減]]
-[[ベイズ推定]]
-[[階層ベイズ]]
-[[変分ベイズ]]
#br
-[[検索:LDA]]

** リンク集 [#d4c8a271]

//関連するWWW資源があればリンクしてください.

-[[Wikipedia:Latent_Dirichlet_allocation]]

*** Freeware [#v8f51d06]

-[[mloss:lda]]
-[[Latent Dirichlet allocation>http://www.cs.princeton.edu/~blei/lda-c/]] @  David M. Blei
-[[lda, a Latent Dirichlet Allocation package>http://chasen.org/~daiti-m/dist/lda/]] @ 持橋 大地
-[[lda>http://cran.r-project.org/web/packages/lda/]]:Collapsed Gibbs sampling methods for topic models (R)
-[[LDA for the masses (who use R)>http://pleasescoopme.com/2009/08/19/lda-for-the-masses-who-use-r/]] @ Jonathan Chang
-[[glda>http://code.google.com/p/glda/]]:Gibbsサンプリングを利用.Fast-LDA や AD-LDA の成果を採用.
-[[GibbsLDA++>http://gibbslda.sourceforge.net/]] @ Xuan-Hieu Phan
-[[parallel LDA>http://code.google.com/p/plda/]] (c++)
-[[ast Collapsed Gibbs Sampling For Latent Dirichlet Allocation>http://www.ics.uci.edu/~iporteou/fastlda/]]

** 関連文献 [#b3ebe9e0]

//この%項目%に関連する書籍や論文を紹介してください.

-基本文献~
D.M.Blei, A.Y.Ng, M.I.Jordan, "Latent Dirichlet Allocation" JMLR, vol.3, pp.993-1022 (2003)~
[[GoogleScholarAll:Latent Dirichlet Allocation]]

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS