TF IDF是什麼學習筆記（基礎版）

tf-idf的演算法，目的是計算詞的權重，由兩部分組成，一部分是tf（詞項頻率），另一部分是idf（逆向文件頻率）。通俗的講，就是，tf-idf = tf * idf。也就是說，我們在考慮詞的權重的時候，不再只考慮這個詞在文件**現多少次。

tf考慮了詞項的類內代表性，其實，我也不懂什麼叫類內代表性，總之，它就是像數數一樣，看乙個詞在乙個句子**現多少次，然後計算頻率。但是這個指標並不能完全反映文字類別的區分度，文件高頻詞極有可能在其他文件中也重複出現，例如「的」、「一」等。term frequency中文翻譯就是詞頻。

舉個例子：

這個詞語在此文字出現的頻率除以此文字詞語的總個數即是詞頻。如「你們」在乙個文字出現10次，此文字一共100個詞語，那麼「你們」的詞頻就是10/100=0.1。

考慮到tf的缺點之後，我們又引入了idf，意思是逆向文件頻率，考慮了詞項的全域性代表性，表示文件中總文件數目與文件中包含該詞項數目的比值：

舉個例子：

idf的具體計算方式是總文字的數目除以包含該詞語檔案的數目再取對數，以達到給每個詞語賦予不同權重的意義。我們一共有100個文字，其中10個中找到了我們想要的詞語，那麼我們的idf值為log(100/10)= 1。

idf值隨著數字分母的變大而變小，也就是說當我們在總文字裡找到越多的文字包含我們想要的詞，這就證明這個詞非常的普遍，並沒有任何的指引性，導致我們的idf值下降。極端的例子，如果說所有檔案裡都有我們想要查詢的這個詞語，那麼分子分母相等再取對數，最後的結果為0，就代表在我們現有的文字或語料庫裡，這個詞語沒有任何特殊的意義和識別性。

最終我們的tf-idf值就等於 tf值idf值，例如詞語「原子彈」的tf值是0.1，idf值是2.8，那麼它的tfidf值為0.28。

如果我們有3個詞語a、b、c,它們的tf-idf值分別為0，28、0.53和0.77,那麼我們加起來，這三個詞語在文章中加起來的tf*idf值就為1.58。

TF IDF是什麼學習筆記（基礎版）

機器學習 TF IDF是什麼

TF IDF學習筆記

學習筆記 Hadoop是什麼

TF IDF是什麼學習筆記（基礎版）

機器學習 TF IDF是什麼

TF IDF學習筆記

學習筆記 Hadoop是什麼

相關推薦