提取關鍵詞 tf idf演算法講解

2021-10-01 13:39:14 字數 830 閱讀 8146

結果你肯定猜到了,出現次數最多的詞是—-「的」、」是」、」在」—-這一類最常用的詞。它們叫做**「停用詞」(stop words)**,表示對找到結果毫無幫助、必須過濾掉的詞。

用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配乙個」重要性」權重。最常見的詞(」的」、」是」、」在」)給予最小的權重,較常見的詞(」中國」)給予較小的權重,較少見的詞(」蜜蜂」、」養殖」)給予較大的權重。這個權重叫做**「逆文件頻率」(inverse document frequency,縮寫為idf)**,它的大小與乙個詞的常見程度成反比。

下面就是這個演算法的細節。

第一步,計算詞頻。

考慮到文章有長短之分,為了便於不同文章的比較,進行」詞頻」標準化,這樣就使用乙個比例來減少了每篇文章數量不一致的影響。

或者:

第二步,計算逆文件頻率。

這時,需要乙個語料庫(corpus),用來模擬語言的使用環境。

如果乙個詞越常見,那麼分母就越大,逆文件頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文件都不包含該詞)。log表示對得到的值取對數。附乙個wiki百科對數的鏈結

第三步,計算tf-idf。

TF IDF 提取關鍵詞

class document p s p p string,1,preg split no empty this build tf else public function build tf public function build tfidf idf else arsort this tfidf...

TF IDF演算法提取文章的關鍵詞

初學中文文字分詞,從最簡單的tf idf演算法入手,理解其中的邏輯結構,其中使用jieba分詞包作為分詞模型。這裡部分內容參考了 hahaha的部落格。tf idf原理 舉個例子 我們在大學選修了數學和體育兩門課,數學為9學分,體育為1學分,期末的時候考試成績分別為60和100分,那麼如果我們說平均...

關鍵詞提取演算法

傳統的tf idf演算法中,僅考慮了詞的兩個統計資訊 出現頻次 在多少個文件出現 因此,其對文字的資訊利用程度顯然也是很少的。演算法本身的定義是死的,但是結合我們的應用場景,對演算法進行合適的重塑及改造,使之更適應對應場景的應用環境,無疑能對我們想要得到的結果起到更好的指導作用。textrank演算...