輕鬆理解TF IDF原理及應用

在了解tf-idf原理前，我們首先需要高清楚為啥需要它以及它能解決什麼問題？下面我們先從以計數為特徵的文字向量化來說起。

計數特徵，簡單來講就是統計每個特徵詞在文件中出現的次數，把次數作為特徵的權重。因此在以計數特徵文字分詞並向量化後，我們可以得到詞彙表中每個詞在各個文字中形成的詞向量，比如我們將下面4個短文本做了詞頻統計：

corpus=[

」我來到風景非常美麗的杭州喝到了非常好喝的龍井」,

「我非常喜歡旅遊」,

「我非常喜歡吃蘋果「,

」我非常喜歡看電視」

] 使用sklearn處理後得到的基於計數特徵的詞向量如下：

如何我們直接將這以計數特徵的12維特徵作為每篇文件的特徵向量，來進行文字分類，那麼將會出現乙個明顯的問題。比如第乙個文字，我們發現」杭州」,」龍井」和「風景」各出現1次，而「非常「出現了2次。單從計數特徵來看似乎這個文字與」非常「這個特徵更關係緊密。但是實際上」非常「是乙個非常普遍的詞，在4個短文本中都出現了，因此雖然它的詞頻為2，但是重要性卻比詞頻為1的」「杭州」,」龍井」和「風景」要低的多，因為它在四個短文本區分度最低。但是，如果我們採用以計數為特徵的向量化就無法反應這一點。因此我們需要進一步的預處理來反應文字的這個特徵，而這個預處理就是tf-idf。

輕鬆理解TF IDF原理及應用

tf idf 原理及實踐

TF IDF解釋及應用

輕鬆理解Redux原理及工作流程

輕鬆理解TF IDF原理及應用

tf idf 原理及實踐

TF IDF解釋及應用

輕鬆理解Redux原理及工作流程

相關推薦