提取關鍵詞 tf idf演算法講解

結果你肯定猜到了，出現次數最多的詞是—-「的」、」是」、」在」—-這一類最常用的詞。它們叫做**「停用詞」（stop words）**，表示對找到結果毫無幫助、必須過濾掉的詞。

用統計學語言表達，就是在詞頻的基礎上，要對每個詞分配乙個」重要性」權重。最常見的詞（」的」、」是」、」在」）給予最小的權重，較常見的詞（」中國」）給予較小的權重，較少見的詞（」蜜蜂」、」養殖」）給予較大的權重。這個權重叫做**「逆文件頻率」（inverse document frequency，縮寫為idf）**，它的大小與乙個詞的常見程度成反比。

下面就是這個演算法的細節。

第一步，計算詞頻。

考慮到文章有長短之分，為了便於不同文章的比較，進行」詞頻」標準化，這樣就使用乙個比例來減少了每篇文章數量不一致的影響。

或者：

第二步，計算逆文件頻率。

這時，需要乙個語料庫（corpus），用來模擬語言的使用環境。

如果乙個詞越常見，那麼分母就越大，逆文件頻率就越小越接近0。分母之所以要加1，是為了避免分母為0（即所有文件都不包含該詞）。log表示對得到的值取對數。附乙個wiki百科對數的鏈結

第三步，計算tf-idf。

TF IDF 提取關鍵詞

class document p s p p string,1,preg split no empty this build tf else public function build tf public function build tfidf idf else arsort this tfidf...

TF IDF演算法提取文章的關鍵詞

初學中文文字分詞，從最簡單的tf idf演算法入手，理解其中的邏輯結構，其中使用jieba分詞包作為分詞模型。這裡部分內容參考了 hahaha的部落格。tf idf原理舉個例子我們在大學選修了數學和體育兩門課，數學為9學分，體育為1學分，期末的時候考試成績分別為60和100分，那麼如果我們說平均...

關鍵詞提取演算法

傳統的tf idf演算法中，僅考慮了詞的兩個統計資訊出現頻次在多少個文件出現因此，其對文字的資訊利用程度顯然也是很少的。演算法本身的定義是死的，但是結合我們的應用場景，對演算法進行合適的重塑及改造，使之更適應對應場景的應用環境，無疑能對我們想要得到的結果起到更好的指導作用。textrank演算...

提取關鍵詞 tf idf演算法講解

TF IDF 提取關鍵詞

TF IDF演算法提取文章的關鍵詞

關鍵詞提取演算法

相關推薦