TF IDF的原理概述

今天來說一下什麼是tf-idf，我記得這個東西從2023年開始就一直纏繞著我，今天我把它撕扯下來，拼湊著這樣的一篇趣文，我想看過之後，大家就算沒學過高等數學，那麼對於它的原理也會了然於胸了。為了能以一種接地氣的方式表達出它的原理，本文幾乎不涉及複雜的數學公式，儘管那些公式在我看來是那麼的富有美感……

一、詞頻（term frequency，縮寫為tf）

1、計算詞頻：（1）詞頻 = 某個詞在文章**現的次數（2）詞頻 = 某個詞在文章**現的總次數 ÷ 文章的總詞數

二、逆文件頻率（inverse document frequency，縮寫為idf）

2、計算逆文件頻率：逆文件頻率 = log（語料庫的文件總數 ÷ （包含該詞的文件數 + 1）） 3、計算tf-idf tf-idf = 詞頻 × 逆文件頻率

通過計算發現在文章中一共有1000個詞語，"歐洲"、"鳶尾花"、"成長"各出現20次，則這三個詞的"詞頻"（tf）都為0.02。然後，通過網頁搜尋發現，包含"的"字的網頁共有250億張，假定這就是科學類網頁總數。包含"歐洲"的網頁共有62.3億張，包含"鳶尾花"的網頁為0.484億張，包含"成長"的網頁為0.973億張。則它們的逆文件頻率（idf）和tf-idf如下：

包含該詞的文件數

idftf-idf

歐洲62.3億

0.603

0.0121

鳶尾花0.484億

2.713

0.0543

成長0.973億

2.410

0.0482

從上表可以看出，「鳶尾花」的tf-idf最高，「成長」次之，「歐洲」的tf-idf值最低。

TF IDF的原理概述

TFIDF演算法原理

TF IDF原理簡介

TF IDF的原理和實現

TF IDF的原理概述

TFIDF演算法原理

TF IDF原理簡介

TF IDF的原理和實現

相關推薦