probabilistic latent semantic analysis (pLSA) を改良した,文書集合の生成モデル.各文書は,\(k\)個の話題に応じて発生した語で構成されている.
以下の過程で,文書に含まれる\(N\)個の語を生成する.
- \(N\sim\mathrm{Poisson}(\xi)\) … Poisson分布で語数を生成
- \(\theta\sim\mathrm{Dir}(\alpha)\) … Dirichlet分布で,\(k\)個の話題を生成するモデルのパラメータを生成.
- \(N\)個のそれぞれの語\(w_n\)について
- (a) \(z_n\sim\mathrm{Multinomial}(\theta)\) … 多項分布で話題を生成
- (b) 語\(w_n\)を,話題\(z_n\)で条件付けした分布 \(p(w_n|z_n,\beta)\) から選択
以上の過程を\(M\)回繰り返して,文書集合\(\mathcal{D}\)を生成する.
- パラメータ\(\alpha\)は,話題数\(k\)と同じ大きさのベクトル
- パラメータ\(\beta\)は,話題\(z_n\)で条件付けするので,\(k\times V\)の行列.ただし,\(V\)は可能な語の総数.
話題の混合比\(\theta\),長さ\(N\)の\(z_n\)と\(w_n\)を要素とするベクトル\(\mathbf{z}\)と\(\mathbf{w}\)の生成確率は次式.
\[p(\theta,\mathbf{z},\mathbf{w}|\alpha,\beta)=p(\theta|\alpha)\prod_{n=1}^Np(z_n|\theta)p(w_n|z_n,\beta)\]
pLSAで文書\(d\)で,語\(w_n\)が生成される確率は
\[p(d,w_n)=p(d)\sum_z p(w_n|z)p(z|d)\]
- 語が,\(k\)個の話題を,混合比\(p(z|d)\)で混合した分布から生成されている.
- 一方,LDAでは,混合比は\(p(z_n|\theta)\)になる.
- pLSAの混合比は訓練用の文書集合に依存した固定したものだが,LDAはこの混合比は事前分布から生成される.そのため,LDAは訓練用文書集合にないような語も扱える.
-- しましま
関連項目†
リンク集†
関連文献†