TF IDF演算法 自動提取關鍵字

2021-07-11 11:58:13 字數 1290 閱讀 3881

這個問題涉及到資料探勘、文字處理、資訊檢索等很多計算機前沿領域,但是出乎意料的是,有乙個非常簡單的經典演算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的tf-idf演算法。

乙個容易想到的思路,就是找到出現次數最多的詞。如果某個詞很重要,它應該在這篇文章中多次出現。於是,我們進行"詞頻"(term frequency,縮寫為tf)統計。

結果你肯定猜到了,出現次數最多的詞是----"的"、"是"、"在"----這一類最常用的詞。它們叫做"停用詞"(stop words),表示對找到結果毫無幫助、必須過濾掉的詞。

【注】如果某個詞或短語在一篇文章中出現的頻率tf高,並且在其他文章中很少出現則認為此詞或者短語具有很好的類別區分能力,適合用來分類。

用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配乙個"重要性"權重。最常見的詞("的"、"是"、"在")給予最小的權重,較常見的詞("中國")給予較小的權重,較少見的詞("蜜蜂"、"養殖")給予較大的權重。這個權重叫做"逆文件頻率"(inverse document frequency,縮寫為idf),它的大小與乙個詞的

常見程度成反比。

下面就是這個演算法的細節。

第一步,計算詞頻。

考慮到文章有長短之分,為了便於不同文章的比較,進行"詞頻"標準化。

或者【歸一化】

第二步,計算逆文件頻率。

這時,需要乙個語料庫(corpus),用來模擬語言的使用環境。

如果乙個詞越常見,那麼分母就越大,逆文件頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文件都不包含該詞)。log表示對得到的值取對數。

第三步,計算tf-idf。

還是以《中國的蜜蜂養殖》為例,假定該文長度為1000個詞,"中國"、"蜜蜂"、"養殖"各出現20次,則這三個詞的"詞頻"(tf)都為0.02。然後,搜尋google發現,包含"的"字的網頁共有250億張,假定這就是中文網頁總數。包含"中國"的網頁共有62.3億張,包含"蜜蜂"的網頁為0.484億張,包含"養殖"的網頁為0.973億張。則它們的逆文件頻率(idf)和tf-idf如下:

tf-idf演算法的優點是簡單快速,結果比較符合實際情況。缺點是,單純以"詞頻"衡量乙個詞的重要性,不夠全面,有時重要的詞可能出現次數並不多。而且,這種演算法無法體現詞的位置資訊,出現位置靠前的詞與出現位置靠後的詞,都被視為重要性相同,這是不正確的。(一種解決方法是,對全文的第一段和每一段的第一句話,給予較大的權重。)

**:

關鍵字提取演算法TF IDF

在文字分類的學習過程中,在 如何衡量乙個關鍵字在文章中的重要性 的問題上,遇到了困難。在網上找了很多資料,大多數都提到了這個演算法,就是今天要講的tf idf。總起 tf idf,理解起來相當簡單,他實際上就是tf idf,兩個計算值的乘積,用來衡量乙個詞庫中的詞對每一篇文件的重要程度。下面我們分開...

關鍵字 EXCEL關鍵字提取

如何根據關鍵字列表將單元格中的關鍵字提取出來,本文提供三種方法,看哪一種適合你!開啟excel 表,內容如下 a列為需要提取關鍵字的內容 f列為關鍵字列表 bcd為三種方法演示 方法一 公式 if sumproduct countif a2,f 2 f 13 lookup 0 frequency 0...

python 關鍵字提取

jieba 關鍵字提取 import jieba.analyse tags jieba.analyse.extract tags str,topk 3 str是提取關鍵字的內容,topk是提取關鍵字數 print join tags tf idf關鍵字提取 是用於資訊檢索和文字挖掘的加權技術。是評估...