probabilistic latent semantic analysis

probabilistic latent semantic analysis (pLSA)†

文書と単語など，離散2変数の計数データの生成モデル．

文書(document)：\(d\in\mathcal{D}=\{d_1,\ldots,d_N\}\)，語(word)：\(w\in\mathcal{W}=\{w_1,\ldots,w_M\}\)，潜在変数の話題(topic)：\(z\in\mathcal{Z}=\{z_1,\ldots,z_K\}\) を使った文書と単語の生成モデルがpLSA (probabilistic latent semantic analysis) \[\Pr[d,w]=\Pr[d]\sum_{z\in\mathcal{Z}}\Pr[w|z]\Pr[z|d]\] これは，文書と語について対称に定義することもできる \[\Pr[d,w]=\sum_{z\in\mathcal{Z}}\Pr[z]\Pr[d|z]\Pr[w|z]\] 上の式では，話題から生じる語の要因\(\Pr[w|z]\)を，\(\Pr[z|d]\) で重み付けした和として生成される．
下の式を，\(\mathbf{\hat{U}}=(\Pr[d_i|z_k])_{i,k}\)， \(\mathbf{\hat{V}}=(\Pr[w_j|z_k])_{j,k}\)， \(\mathbf{\hat{\Sigma}}=\mathrm{diag}[\Pr[z_k]]_k\) と定義すると，全文書と全語の結合確率モデルは \[\mathbf{P}=\mathbf{\hat{U}}\mathbf{\hat{\Sigma}}\mathbf{\hat{V}}\] のSVDと同様の次元削減に利用できることが分かる．
潜在変数 \(Z\) があるのでEMアルゴリズムを用いてパラメータの推定を行う．
aspect modelともいう
ちなみに，probabilistic の付かない latent semantic analysis は，自然言語処理分野での，主成分分析による次元削減の呼称．