關鍵詞提取演算法

傳統的tf-idf演算法中，僅考慮了詞的兩個統計資訊（出現頻次、在多少個文件出現），因此，其對文字的資訊利用程度顯然也是很少的。

演算法本身的定義是死的，但是結合我們的應用場景，對演算法進行合適的重塑及改造，使之更適應對應場景的應用環境，無疑能對我們想要得到的結果起到更好的指導作用。

textrank演算法，基本思想**於google的pagerank演算法，最早用於文件的自動摘要，基於句子維度的分析，利用textrank對每個句子進行打分，挑選出分數最高的n個句子作為文件的關鍵句，以達到自動摘要的效果。

主題模型：與前面兩種模型不同的是，主題模型認為在詞與文件之間沒有直接的聯絡，它們應當還有乙個維度將它們串聯起來，主題模型將這個維度稱為主題。每個文件都應該對應著乙個或多個的主題，而每個主題都會有對應的詞分布，通過主題，就可以得到每個文件的詞分布。

相較於傳統svm模型（space vector model，空間向量模型）對語義資訊利用的缺乏，lsa通過svd（奇異值分解）將詞、文件對映到乙個低維的語義空間，挖掘出詞、文件的淺層語義資訊，從而對詞、文件進行更本質地表達。這也反映了lsa的優點，可以對映到低維的空間，並在有限利用文字語義資訊的同時，大大降低計算的代價，提高分析質量。

lsa是通過svd這一暴力的方法，簡單直接地求解出近似的word-topic-document分布資訊。但是其作為乙個初級的主題模型，仍然存在著許多的不足。其中主要的缺點是：

1. svd的計算複雜度非常高，特徵空間維度較大的，計算效率十分低下。

2. 另外，lsa得到的分布資訊是基於已有資料集的，當乙個新的文件進入到已有的特徵空間時，需要對整個空間重新訓練，以得到加入新文件後對應的分布資訊。

3. 除此之外，lsa還存在著對詞的頻率分布不敏感、物理解釋性薄弱等問題。

為了解決這些問題，學者們在lsa的基礎上進行了改進，提出了plsa演算法，通過使用em演算法對分布資訊進行擬合替代了使用svd進行暴力破解，從一定程度上解決了lsa的部分缺陷，但是lsa仍有較多不足。通過不斷探索，學者們又在plsa的基礎上，引入了貝葉斯模型，實現了現在topic model的主流方法——lda（latentdirichlet allocation，隱含狄利克雷分布）。

關鍵詞提取演算法

關鍵詞提取

關鍵詞提取

關鍵詞提取

相關推薦