統計學習方法讀書筆記(十七) 潛在語義分析

2021-10-17 14:47:41 字數 681 閱讀 7039

全部筆記的彙總貼:統計學習方法讀書筆記彙總貼

潛在語義分析 clatent semantic analysis,. lsa)是一種無監督學習方法,主要用於文字的話題分析,其特點是通過矩陣分解發現文字與單詞之間的基於話題的語義關係。

向量空間模型的基本想法是,給定乙個文字,用乙個向量表示該文字的 「語義」,向量的每一維對應乙個單詞,其數值為該單詞在該文字**現的頗數或權值。

直觀上,在兩個文字中共同出現的單詞越多,其語義內容就越相近,這時,對應的單詞向量同不為零的維度就越多,內積就越大(單詞向量元素的值都是非負的),表示兩個文字在語義內容上越相似。

單詞向量空間模型的優點是模型簡單,計算效率高。因為單詞向量通常是稀疏的, 兩個向量的內積計算只需要在其同不為零的維度上進行即可,需要的計算很少,可以 高效地完成。

潛在語義分析利用矩陣奇異值分解,具體地,對單詞-文字矩陣進行奇異值分解, 將其左矩陣作為話題向量空間,將其對角矩陣與右矩陣的乘積作為文字在話題向量空間的表示。

非負矩陣分解也可以用於話題分析。對單詞-文字矩陣進行非負矩陣分解,將其左矩陣作為話題向量空間,將其右矩陣作為文字在話題向量空間的表示。注意通常單詞-文字矩陣是非負的。

下一章傳送門:統計學習方法讀書筆記(十八)-概率潛在語義分析

統計學習方法讀書筆記

感知機 perceptron 沒啥說的,感知機就是尋找乙個將空間分為兩部分的超平面 前提可分 學習過程既是損失函式極小化的過程。模型 啟用函式 損失函式 推導 首先考慮任意一點x0到超平面的距離 對於誤分類點 xi,yi 來說 所以誤分類點到超平面的總距離 損失函式 損失函式極小化 簡單的梯度下降即...

統計學習方法讀書筆記(十八) 概率潛在語義分析

全部筆記的彙總貼 統計學習方法讀書筆記彙總貼 概率潛在語義分析 plsa 是一種利用概率生成模型對文字集合進行話題分析的無監督學習方法。模型的最大特點是用隱變數表示話題 整個模型表示文字生成話題,話題生成單詞,從而得到單詞 文字共現資料的過程 假設每個文字由乙個話題分布決定,每個話題由乙個單詞分布決...

統計學習方法讀書筆記 knn

看李航老師統計學習方法時的筆記。其實書上寫的已經非常易懂了,但是為了自己記憶,姑且寫個筆記,個別地方是自己的理解,可能有偏差。knn是由cover和hort在1967年提出的分類和回歸方法 監督學習的 它是乙個機遇距離的機器學習演算法,因此更多地適用於數值型的資料集 用jarccard相似度倒也可以...