latent Dirichlet allocation (LDA) †probabilistic latent semantic analysis (pLSA) を改良した,文書集合の生成モデル.各文書は,\(k\)個の話題に応じて発生した語で構成されている. 以下の過程で,文書に含まれる\(N\)個の語を生成する.
以上の過程を\(M\)回繰り返して,文書集合\(\mathcal{D}\)を生成する.
話題の混合比\(\theta\),長さ\(N\)の\(z_n\)と\(w_n\)を要素とするベクトル\(\mathbf{z}\)と\(\mathbf{w}\)の生成確率は次式. \[p(\theta,\mathbf{z},\mathbf{w}|\alpha,\beta)=p(\theta|\alpha)\prod_{n=1}^Np(z_n|\theta)p(w_n|z_n,\beta)\] probabilistic latent semantic analysisとの違い †pLSAで文書\(d\)で,語\(w_n\)が生成される確率は \[p(d,w_n)=p(d)\sum_z p(w_n|z)p(z|d)\]
関連項目 †リンク集 †Freeware †
関連文献 †
|