* probabilistic latent semantic analysis (pLSA) [#m878fd12]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

文書と単語など,離散2変数の計数データの生成モデル.
- 文書(document):\(d\in\mathcal{D}=\{d_1,\ldots,d_N\}\),
語(word):\(w\in\mathcal{W}=\{w_1,\ldots,w_M\}\),
潜在変数の話題(topic):\(z\in\mathcal{Z}=\{z_1,\ldots,z_K\}\) を使った文書と単語の生成モデルがpLSA (probabilistic latent semantic analysis)
\[\Pr[d,w]=\Pr[d]\sum_{z\in\mathcal{Z}}\Pr[w|z]\Pr[z|d]\]
これは,文書と語について対称に定義することもできる
\[\Pr[d,w]=\sum_{z\in\mathcal{Z}}\Pr[z]\Pr[d|z]\Pr[w|z]\]
上の式では,話題から生じる語の要因\(\Pr[w|z]\)を,\(\Pr[z|d]\) で重み付けした和として生成される.
- 下の式を,\(\mathbf{\hat{U}}=(\Pr[d_i|z_k])_{i,k}\),
\(\mathbf{\hat{V}}=(\Pr[w_j|z_k])_{j,k}\),
\(\mathbf{\hat{\Sigma}}=\mathrm{diag}[\Pr[z_k]]_k\) と定義すると,全文書と全語の結合確率モデルは
\[\mathbf{P}=\mathbf{\hat{U}}\mathbf{\hat{\Sigma}}\mathbf{\hat{V}}\]
のSVDと同様の次元削減に利用できることが分かる.
- 潜在変数 \(Z\) があるのでEMアルゴリズムを用いてパラメータの推定を行う.
- aspect modelともいう
- ちなみに,probabilistic の付かない latent semantic analysis は,自然言語処理分野での,主成分分析による次元削減の呼称.

> -- しましま

** 関連項目 [#c8ef69a2]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.
-[[pLSA]]
-[[aspect model]]
#br
-[[自然言語処理]]
-[[次元削減]]
-[[主成分分析]]
-[[latent Dirichlet allocation]]
#br
-[[検索:pLSA PLSA]]

** リンク集 [#c4813f55]

//関連するWWW資源があればリンクしてください.

-[[Wikipedia:Probabilistic_latent_semantic_analysis]]

*** Freeware [#y4572eed]

-[[実装コード>http://chasen.org/~taku/software/plsi/]] @ くどう

** 関連文献 [#sc57cacc]

//この%項目%に関連する書籍や論文を紹介してください.

-基本文献:国際会議~
T.Hofmann, "Probabilistic Latent Semantic Analysis", 15th UAI, pp.289-296 (1999)~
[[GoogleScholarAll:Probabilistic Latent Semantic Analysis]]
-基本文献:論文~
T.Hofmann, "Unsupervised Learning by Probabilistic Latent Semantic Analysis", Machine Learning, vol.42, pp.177-196 (2001)~
[[GoogleScholarAll:Unsupervised Learning by Probabilistic Latent Semantic Analysis]]
-[[Book/Data Mining - Concepts and Techniques]] 10.4.2節
-[[Book/Rで学ぶクラスタ解析]] 8.1.3節

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS