《推薦系統實踐》閱讀筆記四 TF IDF

定義：

tf-idf是一種用於資訊檢索與資訊探測的常用加權技術。tf-idf是一種統計方法，用以評估乙個字或者詞語對於乙個檔案集合或者語料庫中的乙份檔案的重要程度。其實它的原理也很容易理解的，乙個詞語的重要性隨著它在檔案中出現的次數增加而增加，但會同時隨著它在語料庫中出現的頻率成反比下降。tf-idf加權應用在搜尋引擎、文字聚類中。除了tf-idf之外，搜尋引擎還會使用鏈結分析的方法對結果進行排序。

例子：

例子好，簡單易懂，比講述計算方法有效多了。其中tf=term frequency，記為該單詞出現的次數除以該文件的單詞的數目。idf，記為該單詞在文件中出現的概率的倒數的對數。然後對這兩個數進行相乘。

假如一篇檔案的總詞語數是100個，而詞語「母牛」出現了3次，那麼「母牛」一詞在該檔案中的詞頻就是3/100=0.03。乙個計算檔案頻率 (idf) 的方法是測定有多少份檔案出現過「母牛」一詞，然後除以檔案集裡包含的檔案總數。所以，如果「母牛」一詞在1,000份檔案出現過，而檔案總數是10,000,000份的話，其逆向檔案頻率就是 lg(10,000,000 / 1,000)=4。最後的tf-idf的分數為0.03 * 4=0.12。

優化：1、roberto basils 提出了tf/ iwf/ iwf 方法,權重計算公式如下:w ( w

i , d) = t f( w

i, d) * id f( w

i)= n ( w

id) * log ( n ( w

i) / n)

2其中n ( w

i) 是文件中出現wi 的次數, n 是文件中所有詞出現的次數之和, n ( w

id ) 文字中出現wi 的次數,實現結果表明比tf/idf 演算法有很大提高。

tf-idf統計原理介紹

主題詞提取：

《推薦系統實踐》閱讀筆記四 TF IDF

推薦系統實踐閱讀筆記4

推薦系統實踐基於鄰域演算法閱讀筆記3

推薦系統實踐筆記（一）

《推薦系統實踐》閱讀筆記四 TF IDF

推薦系統實踐 閱讀筆記4

推薦系統實踐 基於鄰域演算法 閱讀筆記3

推薦系統實踐筆記（一）

相關推薦

推薦系統實踐閱讀筆記4

推薦系統實踐基於鄰域演算法閱讀筆記3