latent Dirichlet allocation (LDA)

probabilistic latent semantic analysis (pLSA) を改良した,文書集合の生成モデル.各文書は,\(k\)個の話題に応じて発生した語で構成されている.

以下の過程で,文書に含まれる\(N\)個の語を生成する.

  1. \(N\sim\mathrm{Poisson}(\xi)\) … Poisson分布で語数を生成
  2. \(\theta\sim\mathrm{Dir}(\alpha)\) … Dirichlet分布で,\(k\)個の話題を生成するモデルのパラメータを生成.
  3. \(N\)個のそれぞれの語\(w_n\)について
    • (a) \(z_n\sim\mathrm{Multinomial}(\theta)\) … 多項分布で話題を生成
    • (b) 語\(w_n\)を,話題\(z_n\)で条件付けした分布 \(p(w_n|z_n,\beta)\) から選択

以上の過程を\(M\)回繰り返して,文書集合\(\mathcal{D}\)を生成する.

話題の混合比\(\theta\),長さ\(N\)の\(z_n\)と\(w_n\)を要素とするベクトル\(\mathbf{z}\)と\(\mathbf{w}\)の生成確率は次式. \[p(\theta,\mathbf{z},\mathbf{w}|\alpha,\beta)=p(\theta|\alpha)\prod_{n=1}^Np(z_n|\theta)p(w_n|z_n,\beta)\]

probabilistic latent semantic analysisとの違い

pLSAで文書\(d\)で,語\(w_n\)が生成される確率は \[p(d,w_n)=p(d)\sum_z p(w_n|z)p(z|d)\]

-- しましま

関連項目

リンク集

Freeware

関連文献


トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:11:49