TF IDF的簡單理解

2021-09-12 15:58:36 字數 1043 閱讀 6482

1、tf-idf簡介

tf:term frequency 詞頻,指的是給定乙個詞在該文件**現的次數

idf:inverse document frequency  逆文件頻率

可以簡單的理解成:乙個詞語在一篇文章**現的次數越多,同時在其他的所有文件**現的次數越少,越能夠代表該文章

2、tf idf計算

2.1 tf

tf指的是某乙個給定的詞語在該文件**現的次數,由於文件的長度不一,防止tf偏向於長文件,需要對其進行歸一化處理,一般採取詞頻除以文章的總詞數

tf = 在某一文件中詞w出現的次數/該文件中所有的詞條數目

2.2  idf

如果包含詞w的文件越少,idf越大,則說明該詞具有很好的類別區分能力,某一特定詞語的idf,可以由總文件數除以包含該詞語的文件的數目,再將得到的商取對數得到

idf = 文件的總數/(包含該詞條的文件數+1)

為了防止分母為0,則對分母加了1

2.3  tf-idf

某一特定檔案內的高詞語頻率,以及該詞在整個檔案集合中的低檔案頻率,可以產生出高權重的tf-idf,因此,tf-idf傾向於過濾掉常見的詞語,保留重要的詞語

tf-idf = tf*idf

3、例子

乙個文件中,總共有1000個詞,「中國」出現5次、 「體育」出現20次,總共有100份文件,其中包含「中國」的有30份文件,包含「體育」的有10份文件

中國: tf = 5/1000 = 0.005  idf = log(100/(30+1))  大概為0.51

體育: tf = 20/1000 = 0.02  idf = log(100/(10+1))  大概為0.95

中國:tf-idf = 0.005*0.51 = 0.00255

體育:tf-idf = 0.02*0.95 = 0.019

這是我對tf-idf的簡單理解,有不對的地方,互相交流一下

簡單理解TFIDF及其演算法python實現

通俗來講tf idf就是考慮單詞的重要性。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。tf idf term frequency inverse document frequency 是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙...

NLP 如何理解TF IDF?

tf idf term frequency inverse document frequency 是一種統計方法,用來衡量字詞對於文字的重要程度。字詞的重要性隨著它在當前文字 現的頻率成正比,隨著它在語料庫中其他文字 現的頻率成反比,因此td idf也經常被用來提取文字的特徵。本文主要講解什麼是tf...

生動理解TF IDF演算法

tf idf有兩層意思,一層是 詞頻 term frequency,縮寫為tf 另一層是 逆文件頻率 inverse document frequency,縮寫為idf 假設我們現在有一片長文叫做 量化系統架構設計 詞頻高在文章中往往是停用詞,的 是 了 等,這些在文件中最常見但對結果毫無幫助 需要...