關鍵詞權重的量化方法TF IDF

下面進入主題：

在搜尋引擎中，乙個詞能夠概括這篇文章意思的能力越高，權重就越高，反之則降低，舉個例子吧，類似於這樣的乙個詞：「吸菸的危害」，在這個詞裡面，吸菸是整個文章的乙個主詞，也就是說，吸菸這個詞是整篇文章的核心，而「危害」這個詞卻能表達很多危害，例如環境汙染危害，破壞公物的危害等。剩下的乙個詞「的」在整個句子裡根本就沒有任何意義，這樣一來，我們的權重問題就可以看的很明白了，具體的權重大小就如下這樣

吸菸》危害》的，而「的」這個詞因為不包含任何意義，所以，一般情況下，搜尋引擎的計算規則中會講「的」這個詞消噪（這點純屬個人看法，請高手指教。）

我們可以看到的是，有些詞，只要你搜尋一下，馬上就會得出結果，例如吸菸危害這樣的詞，而「的」這個詞雖然存在於幾乎所有的網頁中，卻根本不能反應出任何意義，這樣一來他的權重就少的可憐了，這就是搜尋引擎中的：「逆文字頻率指數」（inverse document frequency 縮寫為idf）他的計算公式是這樣的，假如乙個詞w在dw個網頁中出現過，那麼dw的值越大，w的權重就越小。具體的公式如下log(d/dw).

這個我們可以舉個例子，假如有10億個網頁在搜尋庫里，而手機這個詞出現的次數是兩百萬次，那麼我們的計算公式就是

log(2000000/1000000000)=log(500)=6.2

通過這樣的方式，我們就可以算出詞的權重，這個辦法，可以使用在優化當中的長尾生僻詞的辦法中，利用計算，得到最大的權重詞，當然，你無法知道資料庫裡到底有多少個網頁，因此，也就只能通過搜尋結果來判斷了，呵呵。

那麼tf是什麼呢？

吸菸：5次

的：46次

危害：9次

接著我們的話題，tf/idf被認為是資訊檢索中最偉大的發明，就是因為他在一定意義上解決了很多網頁排序的問題，現在的大型搜尋引擎都是靠這個公式去做為基礎的，當然，在計算方式上會改進很多的部分，以求更準確，另外，結合向量空間模型（vector space models）、多文件列表求交計算等方式，使得搜尋引擎的結果更加準確。

關鍵詞權重的量化方法TF IDF

TF IDF 提取關鍵詞

TF IDF關鍵詞提取方法的學習

TF IDF演算法實現關鍵詞抽取

關鍵詞權重的量化方法TF IDF

TF IDF 提取關鍵詞

TF IDF關鍵詞提取方法的學習

TF IDF演算法實現關鍵詞抽取

相關推薦