probabilistic latent semantic analysis (pLSA)

文書と単語など,離散2変数の計数データの生成モデル

  • 文書(document):\(d\in\mathcal{D}=\{d_1,\ldots,d_N\}\), 語(word):\(w\in\mathcal{W}=\{w_1,\ldots,w_M\}\), 潜在変数の話題(topic):\(z\in\mathcal{Z}=\{z_1,\ldots,z_K\}\) を使った文書と単語の生成モデルがpLSA (probabilistic latent semantic analysis) \[\Pr[d,w]=\Pr[d]\sum_{z\in\mathcal{Z}}\Pr[w|z]\Pr[z|d]\] これは,文書と語について対称に定義することもできる \[\Pr[d,w]=\sum_{z\in\mathcal{Z}}\Pr[z]\Pr[d|z]\Pr[w|z]\] 上の式では,話題から生じる語の要因\(\Pr[w|z]\)を,\(\Pr[z|d]\) で重み付けした和として生成される.
  • 下の式を,\(\mathbf{\hat{U}}=(\Pr[d_i|z_k])_{i,k}\), \(\mathbf{\hat{V}}=(\Pr[w_j|z_k])_{j,k}\), \(\mathbf{\hat{\Sigma}}=\mathrm{diag}[\Pr[z_k]]_k\) と定義すると,全文書と全語の結合確率モデルは \[\mathbf{P}=\mathbf{\hat{U}}\mathbf{\hat{\Sigma}}\mathbf{\hat{V}}\] のSVDと同様の次元削減に利用できることが分かる.
  • 潜在変数 \(Z\) があるのでEMアルゴリズムを用いてパラメータの推定を行う.
  • aspect modelともいう
  • ちなみに,probabilistic の付かない latent semantic analysis は,自然言語処理分野での,主成分分析による次元削減の呼称.

-- しましま

関連項目

リンク集

Freeware

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:12:00 (2493d)