NLP TF IDF詞頻 逆檔案頻率演算法解析

2021-10-06 08:23:26 字數 814 閱讀 6187

一. 什麼是tf-idf

tf-idf(term frequency-inverse document frequency, 詞頻-逆檔案頻率) 是一種用於資訊檢索與資訊探勘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成正比增加,但同時會隨著它在語料庫**現的頻率成反比下降。

上述引用總結就是, 乙個詞語在一篇文章**現次數越多, 同時在所有文件**現次數越少, 越能夠代表該文章.

這也就是tf-idf的含義.

tf: 乙個詞在文件**現的頻率 = 該詞出現次數/文件中總詞數
詞頻 (term frequency, tf) 指的是某乙個給定的詞語在該檔案**現的次數,描述的是乙個詞跟文件的相關度,乙個文件**現某個詞越多說明該文件的主題跟該詞有很大的關係。這個數字通常會被歸一化(一般是詞頻除以文章總詞數), 以防止它偏向長的檔案。(同乙個詞語在長檔案裡可能會比短檔案有更高的詞頻,而不管該詞語重要與否。)

但是, 需要注意, 一些通用的詞語對於主題並沒有太大的作用, 反倒是一些出現頻率較少的詞才能夠表達文章的主題, 所以單純使用是tf不合適的。權重的設計必須滿足:乙個詞**主題的能力越強,權重越大,反之,權重越小。所有統計的文章中,一些詞只是在其中很少幾篇文章**現,那麼這樣的詞對文章的主題的作用很大,這些詞的權重應該設計的較大。

idf描述乙個詞的個性度(重要性),如果乙個詞在很多文件**現說明該詞是個「大眾面」,如一大堆詞都是一些公司名稱,這時你說出兩個字能非常好地定位到你需要的公司名字,那麼你就要挑那個公司名字中核心的、獨一無二的字,假如你挑 「公司」

TF IDF 詞頻 逆檔案頻率

是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案 現的次數成正比增加,但同時會隨著它在語料庫 現的頻率成反比下降。即乙個詞語在一篇文章 現次數越多,同時在所有文件 現次數越少,越能夠代...

TF IDF 詞頻 逆文字頻率

tf idf term frequency inverse document frequency,詞頻 逆文字頻率 是一種用於資訊檢索與資料探勘的常用加權技術,可以評估乙個詞在乙個檔案集或者乙個語料庫中對某個檔案的重要程度。乙個詞語在一篇文章 現的次數越多,同時在所有文章 現的次數越少,越能代表該文...

詞頻 逆向檔案頻率

tf idf tf idf term frequency inverse document frequency 是一種用於資訊檢索與資料探勘的常用加權技術。聽語音 tf idf是一種 統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案 現的次數成正...