輕鬆理解TF IDF原理及應用

2021-08-22 13:04:13 字數 785 閱讀 4367

在了解tf-idf原理前,我們首先需要高清楚為啥需要它以及它能解決什麼問題?下面我們先從以計數為特徵的文字向量化來說起。

計數特徵,簡單來講就是統計每個特徵詞在文件中出現的次數,把次數作為特徵的權重。因此在以計數特徵文字分詞並向量化後,我們可以得到詞彙表中每個詞在各個文字中形成的詞向量,比如我們將下面4個短文本做了詞頻統計:

corpus=[

」我 來到 風景 非常 美麗 的 杭州 喝 到了 非常 好喝 的 龍井」,

「我 非常 喜歡 旅遊」,

「我 非常 喜歡 吃 蘋果 「,

」我 非常 喜歡 看 電視」

] 使用sklearn處理後得到的基於計數特徵的詞向量如下:

如何我們直接將這以計數特徵的12維特徵作為每篇文件的特徵向量,來進行文字分類,那麼將會出現乙個明顯的問題。比如第乙個文字,我們發現」杭州」,」龍井」和「風景」各出現1次,而「非常「出現了2次。單從計數特徵來看似乎這個文字與」非常「這個特徵更關係緊密。但是實際上」非常「是乙個非常普遍的詞,在4個短文本中都出現了,因此雖然它的詞頻為2,但是重要性卻比詞頻為1的」「杭州」,」龍井」和「風景」要低的多,因為它在四個短文本區分度最低。但是,如果我們採用以計數為特徵的向量化就無法反應這一點。因此我們需要進一步的預處理來反應文字的這個特徵,而這個預處理就是tf-idf。

tf idf 原理及實踐

也就是詞頻啦,即乙個詞在文 現的次數 如果乙個詞越常見,那麼分母就越大,逆文件頻率就越小越接近0。分母之所以要加1,是為了避免分母為0 即所有文件都不包含該詞 log表示對得到的值取對 用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配乙個 重要性 權重 這個詞越常見 給予較小的權重,較少見的詞 ...

TF IDF解釋及應用

tf 該詞在某篇文件中出現的頻率,tf w,d 值越大,表明該詞在文件中的重要性越高 idf 單詞普遍性的度量,如果該值越小,則該詞認為非常普遍,如果該值很大,則認為該詞在其他文件中很少出現,可以用該詞來進行分類。應用 1 搜尋引擎 tf idf q,d sum 3 找出相似文章 生成兩篇文章各自的...

輕鬆理解Redux原理及工作流程

redux由dan abramov在2015年建立的科技術語。是受2014年facebook的flux架構以及函式式程式語言elm啟發。很快,redux因其簡單易學體積小在短時間內成為最熱門的前端架構。本文中我將用通俗易懂的方式講述redux的原理和工作流程 react元件 或其他使用redux的元...