潛在語義分析 LSA

潛在語義分析（latent semantic analysis，lsa）是一種無監督學習方法，主要用於文字的話題分析，其特點是通過矩陣分解發現文字與單詞之間的基於話題的語義關係。潛在語義分析由deerwester 2023年提出，最初應用於文字資訊檢索，所以也被稱為潛在語義索引（latent semantic indexing，lsi），在推薦系統、影象處理、生物資訊等領域也有廣泛應用。

文字資訊處理中，傳統的方法以單詞向量表示文字的語義內容，以單詞向量空間的度量表示文字之間的語義相似度。潛在語義分析旨在解決這種方法不能準確表示語義的問題，試圖從大量的文字資料中發現潛在的話題，以話題向量表示文字的語義內容，以話題向量空間的度量更準確地表示文字之間的語義相似度。這也是話題分析（topic modeling）的基本想法。

潛在語義分析使用的是非概率的話題分析模型。具體地，將文字集合表示為單詞-文字矩陣，對單詞-文字矩陣進行奇異值分解，從而得到話題向量空間，以及文字在話題向量空間的表示。

非負矩陣分解（non-negative matrix factorization，nmf）是另一種矩陣的因子分解方法。其特點是分解的矩陣非負。非負矩陣分解也可用於話題分析。

潛在語義分析 LSA

潛在語義分析LSA

機器學習潛在語義分析LSA和PLSA

潛在語義分析對認知科學的啟示

潛在語義分析 LSA

潛在語義分析LSA

機器學習 潛在語義分析LSA和PLSA

潛在語義分析對認知科學的啟示

相關推薦

機器學習潛在語義分析LSA和PLSA