概率隱語義分析和奇異值分解

推薦系統中經常用到的兩個基本模型，乙個是概率隱語義分析(probabilistic latent semantic indexing簡稱plsa)，另乙個是奇異值分解(svd)，下面分析一下二者的區別和聯絡。

從形式上看plsa和svd很像，如式(1)和式(2)，

二者都是隱變數模型，是矩陣分解，都對原矩陣進行了降維，並且都是非監督學習。雖然形式上很相似，但是二者在實際應用中區別還是很大的，不能混淆使用。首先，分解物件不同，在plsa模型中，p矩陣的每個元素代表乙個概率，而在svd中，a並不要求具有概率意義，如在協同過濾中，a中每個元素代表乙個評分。其次隱變數的意義不同，雖然二者都是隱變數模型，在plsa中隱變數代表的乙個類別，是離散的，具有明確的概率意義，表示乙個類別的邊緣分布，而在svd中，隱變數代表的乙個方向，是連續的。第三，兩種分解的優化目標不同，plsa的分解目標是找到一組基使得似然概率取得最大值，並且基之間不一定是正交的，而svd的優化目標是對映損失誤差最小，它的基是正交的，plsa強調的是聚類，這一點是受 z的離散性影響的，svd強調的是找到乙個隱方向，使用資料在該方向的區分度比較大。

從以上分析可以看出，雖然二者的都是矩陣分解，都起到了降維的作用，但是plsa重點在聚類，強調共性，而svd在於找方向，強調差異性。如果從監督和非監督的角度考慮，plsa對應的是分類問題，而svd對應的是回歸問題。

參考資料

probabilistic latent semantic indexing

概率隱語義分析和奇異值分解

奇異值和奇異值分解

奇異值和奇異值分解

奇異值分解

概率隱語義分析和奇異值分解

奇異值和奇異值分解

奇異值和奇異值分解

奇異值分解

相關推薦