latent Dirichlet allocation (LDA)

probabilistic latent semantic analysis (pLSA) を改良した,文書集合の生成モデル.各文書は,\(k\)個の話題に応じて発生した語で構成されている.

以下の過程で,文書に含まれる\(N\)個の語を生成する.

  1. \(N\sim\mathrm{Poisson}(\xi)\) … Poisson分布で語数を生成
  2. \(\theta\sim\mathrm{Dir}(\alpha)\) … Dirichlet分布で,\(k\)個の話題を生成するモデルのパラメータを生成.
  3. \(N\)個のそれぞれの語\(w_n\)について
    • (a) \(z_n\sim\mathrm{Multinomial}(\theta)\) … 多項分布で話題を生成
    • (b) 語\(w_n\)を,話題\(z_n\)で条件付けした分布 \(p(w_n|z_n,\beta)\) から選択

以上の過程を\(M\)回繰り返して,文書集合\(\mathcal{D}\)を生成する.

  • パラメータ\(\alpha\)は,話題数\(k\)と同じ大きさのベクトル
  • パラメータ\(\beta\)は,話題\(z_n\)で条件付けするので,\(k\times V\)の行列.ただし,\(V\)は可能な語の総数.

話題の混合比\(\theta\),長さ\(N\)の\(z_n\)と\(w_n\)を要素とするベクトル\(\mathbf{z}\)と\(\mathbf{w}\)の生成確率は次式. \[p(\theta,\mathbf{z},\mathbf{w}|\alpha,\beta)=p(\theta|\alpha)\prod_{n=1}^Np(z_n|\theta)p(w_n|z_n,\beta)\]

probabilistic latent semantic analysisとの違い

pLSAで文書\(d\)で,語\(w_n\)が生成される確率は \[p(d,w_n)=p(d)\sum_z p(w_n|z)p(z|d)\]

  • 語が,\(k\)個の話題を,混合比\(p(z|d)\)で混合した分布から生成されている.
  • 一方,LDAでは,混合比は\(p(z_n|\theta)\)になる.
  • pLSAの混合比は訓練用の文書集合に依存した固定したものだが,LDAはこの混合比は事前分布から生成される.そのため,LDAは訓練用文書集合にないような語も扱える.

-- しましま

関連項目

リンク集

Freeware

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:11:49 (2494d)