通俗理解TF IDF文字分析演算法

2021-08-25 11:40:56 字數 517 閱讀 6137

tf-idf是一種文字詞頻(文字特徵提取)統計演算法

詞頻(tf):乙個詞語在文字中出現的頻率;

文字總數(d):所蒐集的所有文字數;

含關鍵字文字數(dw):含有某個詞(關鍵字)的文字數目;

公式:注:idf處理目的:

1、降低具有"普遍性"詞語的權重,提公升具有"個性化"的詞的頻率

2、分母dw+1是為了避免分母為0的情況

假如一篇檔案的總詞語數是100個,而詞語「母牛」出現了3次,那麼「母牛」一詞在該檔案中的詞頻就是3/100=0.03。乙個計算檔案頻率 (idf) 的方法是測定有多少份檔案出現過「母牛」一詞,然後除以檔案集裡包含的檔案總數。所以,如果「母牛」一詞在1,000份檔案出現過,而檔案總數是10,000,000份的話,其逆向檔案頻率就是 lg(10,000,000 / 1,000)=4。最後的tf-idf的分數為0.03 * 4=0.12

更多參考:

文字分析之TF IDF

1 定義 tf idf term frequency inverse document frequency 是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同...

文字分類任務中tf idf的理解

維基百科給的定義式 tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。tf idf加權的各種形式常被搜尋引擎應用,作為檔案與使用者查詢之間相關程度的度量或評級。...

思考 tf idf之於文字分類

因為工作中需要用到計算詞語權重,進而作詞與選擇,思考了一下tf idf。首先還是簡單介紹一下tf idf。這個概念最開始用於資訊檢索。tf表示term frequency,通常是指詞頻 idf表示inversed document frequency,是文件頻率的倒數。計算方式如下 通常是對於一篇文...