文書と単語など,離散2変数の計数データの生成モデル.
- 文書(document):\(d\in\mathcal{D}=\{d_1,\ldots,d_N\}\),
語(word):\(w\in\mathcal{W}=\{w_1,\ldots,w_M\}\),
潜在変数の話題(topic):\(z\in\mathcal{Z}=\{z_1,\ldots,z_K\}\) を使った文書と単語の生成モデルがpLSA (probabilistic latent semantic analysis)
\[\Pr[d,w]=\Pr[d]\sum_{z\in\mathcal{Z}}\Pr[w|z]\Pr[z|d]\]
これは,文書と語について対称に定義することもできる
\[\Pr[d,w]=\sum_{z\in\mathcal{Z}}\Pr[z]\Pr[d|z]\Pr[w|z]\]
上の式では,話題から生じる語の要因\(\Pr[w|z]\)を,\(\Pr[z|d]\) で重み付けした和として生成される.
- 下の式を,\(\mathbf{\hat{U}}=(\Pr[d_i|z_k])_{i,k}\),
\(\mathbf{\hat{V}}=(\Pr[w_j|z_k])_{j,k}\),
\(\mathbf{\hat{\Sigma}}=\mathrm{diag}[\Pr[z_k]]_k\) と定義すると,全文書と全語の結合確率モデルは
\[\mathbf{P}=\mathbf{\hat{U}}\mathbf{\hat{\Sigma}}\mathbf{\hat{V}}\]
のSVDと同様の次元削減に利用できることが分かる.
- 潜在変数 \(Z\) があるのでEMアルゴリズムを用いてパラメータの推定を行う.
- aspect modelともいう
- ちなみに,probabilistic の付かない latent semantic analysis は,自然言語処理分野での,主成分分析による次元削減の呼称.
-- しましま
関連項目†
リンク集†
関連文献†