概率語言模型

lsa的步驟如下：

1. 分析文件集合，建立term-document矩陣。

2. 對term-document矩陣進行奇異值分解。

3. 對svd分解後的矩陣進行降維，保留前個特徵值，後面個置零，也就是低階近似。

4. 使用降維後的矩陣構建潛在語義空間，或重建term-document矩陣。新得到的term-document矩陣就是我們經過lsa模型提取低維隱含語義空間。該空間中，每個奇異值對應的是每個「語義」維度的權重，我們剛才將不太重要的權重置為零，只保留最重要的維度資訊，因而可以得到文件的一種更優表達形式。

一種分析、簡化資料集的技術。

主成分分析經常用於減少資料集的維數，同時保持資料集中的對方差貢獻最大的特徵。

這是通過保留低階主成分，忽略高階主成分做到的。這樣低階成分往往能夠保留住資料的最重要方面。但是，這也不是一定的，要視具體應用而定。由於主成分分析依賴所給資料，所以資料的準確性對分析結果影響很大。

主成分分析由卡爾·皮爾遜於2023年發明[1]，用於分析資料及建立數理模型。其方法主要是通過對協方差矩陣進行特徵分解[2]，以得出資料的主成分（即特徵向量）與它們的權值（即特徵值[3]）。pca是最簡單的以特徵量分析多元統計分布的方法。其結果可以理解為對原資料中的方差做出解釋：哪乙個方向上的資料值對方差的影響最大？換而言之，pca提供了一種降低資料維度的有效辦法；如果分析者在原資料中除掉最小的特徵值所對應的成分，那麼所得的低維度資料必定是最優化的（也即，這樣降低維度必定是失去訊息最少的方法）。主成分分析在分析複雜資料時尤為有用，比如人臉識別。

概率語言模型及其變形系列(1)-plsa及em演算法

tf-idf

singular value decomposition

we recommend a singular value decomposition

奇異值分解(svd) — 幾何意義

vsm、tf-idf與lsa

principal component analysis

概率語言模型

建立概率模型

概率之結構化概率模型

概率模型初級介紹

概率語言模型

建立概率模型

概率之結構化概率模型

概率模型 初級介紹

相關推薦

概率模型初級介紹