TF IDF計算方法

例1

有很多不同的數學公式可以用來計算tf-idf。這邊的例子以上述的數學公式來計算。詞頻 (tf) 是一詞語出現的次數除以該檔案的總詞語數。假如一篇檔案的總詞語數是100個，而詞語「母牛」出現了3次，那麼「母牛」一詞在該檔案中的詞頻就是3/100=0.03。乙個計算檔案頻率 (idf) 的方法是測定有多少份檔案出現過「母牛」一詞，然後除以檔案集裡包含的檔案總數。所以，如果「母牛」一詞在1,000份檔案出現過，而檔案總數是10,000,000份的話，其逆向檔案頻率就是 log(10,000,000 / 1,000)=4。最後的tf-idf的分數為0.03 * 4=0.12。

例2讀者可能已經發現了又乙個漏洞。在上面的例子中，詞「的」佔了總詞頻的 80% 以上，而它對確定網頁的主題幾乎沒有用。我們稱這種詞叫「應刪除詞」（stopwords)，也就是說在度量相關性是不應考慮它們的頻率。在漢語中，應刪除詞還有「是」、「和」、「中」、「地」、「得」等等幾十個。忽略這些應刪除詞後，上述網頁的相似度就變成了0.007，其中「原子能」貢獻了 0.002，「應用」貢獻了 0.005。細心的讀者可能還會發現另乙個小的漏洞。在漢語中，「應用」是個很通用的詞，而「原子能」是個很專業的詞，後者在相關性排名中比前者重要。因此我們需要給漢語中的每乙個詞給乙個權重，這個權重的設定必須滿足下面兩個條件：

1. 乙個詞**主題能力越強，權重就越大，反之，權重就越小。我們在網頁中看到「原子能」這個詞，或多或少地能了解網頁的主題。我們看到「應用」一次，對主題基本上還是一無所知。因此，「原子能「的權重就應該比應用大。

2. 應刪除詞的權重應該是零。

TF IDF計算方法

TF IDF的計算方法

IOPS計算方法

RMS計算方法

TF IDF計算方法

TF IDF的計算方法

IOPS計算方法

RMS計算方法

相關推薦