TF IDF演算法自動提取關鍵字

這個問題涉及到資料探勘、文字處理、資訊檢索等很多計算機前沿領域，但是出乎意料的是，有乙個非常簡單的經典演算法，可以給出令人相當滿意的結果。它簡單到都不需要高等數學，普通人只用10分鐘就可以理解，這就是我今天想要介紹的tf-idf演算法。

乙個容易想到的思路，就是找到出現次數最多的詞。如果某個詞很重要，它應該在這篇文章中多次出現。於是，我們進行"詞頻"（term frequency，縮寫為tf）統計。

結果你肯定猜到了，出現次數最多的詞是----"的"、"是"、"在"----這一類最常用的詞。它們叫做"停用詞"（stop words），表示對找到結果毫無幫助、必須過濾掉的詞。

【注】如果某個詞或短語在一篇文章中出現的頻率tf高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。

用統計學語言表達，就是在詞頻的基礎上，要對每個詞分配乙個"重要性"權重。最常見的詞（"的"、"是"、"在"）給予最小的權重，較常見的詞（"中國"）給予較小的權重，較少見的詞（"蜜蜂"、"養殖"）給予較大的權重。這個權重叫做"逆文件頻率"（inverse document frequency，縮寫為idf），它的大小與乙個詞的

常見程度成反比。

下面就是這個演算法的細節。

第一步，計算詞頻。

考慮到文章有長短之分，為了便於不同文章的比較，進行"詞頻"標準化。

或者【歸一化】

第二步，計算逆文件頻率。

這時，需要乙個語料庫（corpus），用來模擬語言的使用環境。

如果乙個詞越常見，那麼分母就越大，逆文件頻率就越小越接近0。分母之所以要加1，是為了避免分母為0（即所有文件都不包含該詞）。log表示對得到的值取對數。

第三步，計算tf-idf。

還是以《中國的蜜蜂養殖》為例，假定該文長度為1000個詞，"中國"、"蜜蜂"、"養殖"各出現20次，則這三個詞的"詞頻"（tf）都為0.02。然後，搜尋google發現，包含"的"字的網頁共有250億張，假定這就是中文網頁總數。包含"中國"的網頁共有62.3億張，包含"蜜蜂"的網頁為0.484億張，包含"養殖"的網頁為0.973億張。則它們的逆文件頻率（idf）和tf-idf如下：

tf-idf演算法的優點是簡單快速，結果比較符合實際情況。缺點是，單純以"詞頻"衡量乙個詞的重要性，不夠全面，有時重要的詞可能出現次數並不多。而且，這種演算法無法體現詞的位置資訊，出現位置靠前的詞與出現位置靠後的詞，都被視為重要性相同，這是不正確的。（一種解決方法是，對全文的第一段和每一段的第一句話，給予較大的權重。）

**：

TF IDF演算法自動提取關鍵字

關鍵字提取演算法TF IDF

關鍵字 EXCEL關鍵字提取

python 關鍵字提取

TF IDF演算法 自動提取關鍵字

關鍵字提取演算法TF IDF

關鍵字 EXCEL關鍵字提取

python 關鍵字提取

相關推薦

TF IDF演算法自動提取關鍵字