TF IDF概念學習筆記

2021-05-22 05:54:15 字數 789 閱讀 1055

今天晚上加班開發一套程式介面,等回到家已經11點30了。本來打算繼續寫我的gde-x引擎,時間已經不夠了。那麼就學習一點東西吧,開啟放在桌面上的吳軍老師的《數學之美》,頓時發現一片新的天地。

—— tf/idf概念。(turn frequency/inverse document frequency)也稱為詞彙頻率/逆向文字頻率。

我們可以將搜尋關鍵字進行中文分詞,假如得到 c1,c2,c3...cn個分詞。

那麼對於每個分詞我們有個權值,作為它的重要程度,比如w1,w2,w3。。。。wn。

所以 越專業的詞,我們就認為它的權值更高。如上例中 網路遊戲 就比 現狀的權值高。

f = 詞頻1 * w1 + 詞頻2 * w2 + .... + 詞頻n * wn

詞頻就是該詞在記錄中出現的頻率,(頻率 = 出現次數 / 記錄中詞總數 )

這一部分我們叫做 tf(詞彙頻率) 概念。

然後我們需要求得各個詞的權值,我們通過idf(逆向文字)概念:

分析所有的被檢索記錄,若乙個詞出現得越多,則這個詞越不重要。(越大眾化)

若乙個詞出現得越少,則這個詞越重要。(專業化)

對於詞cn,若它在 n 個記錄中出現過,假設系統總共有 m 條記錄,則其權值計算公式為:

w = log( m / n )

為什麼是log?——這個據說證明相當複雜,但最終證明log是合理的。

這部分計算概念即為 idf。

以這個概念為基礎數學模型,提供一種在海量資訊中建立對於 關鍵字 相關性的計算機制。這也是 搜尋引擎的乙個基本數學基礎。

——非常簡單,但是強大!

TF IDF概念學習筆記

今天晚上加班開發一套程式介面,等回到家已經11點30了。本來打算繼續寫我的gde x引擎,時間已經不夠了。那麼就學習一點東西吧,開啟放在桌面上的吳軍老師的 數學之美 頓時發現一片新的天地。tf idf概念。turn frequency inverse document frequency 也稱為詞彙...

TF IDF概念學習筆記

今天晚上加班開發一套程式介面,等回到家已經11點30了。本來打算繼續寫我的gde x引擎,時間已經不夠了。那麼就學習一點東西吧,開啟放在桌面上的吳軍老師的 數學之美 頓時發現一片新的天地。tf idf概念。turn frequency inverse document frequency 也稱為詞彙...

架構相關概念 學習筆記

什麼是企業架構?企業架構 enterprise architecture 簡稱ea。是指對企業事業資訊管理系統中具有體系的 普遍性的問題而提供的通用解決方案,更確切的說,是基於業務導向和驅動的架構來理解 分析 設計 構建 整合 擴充套件 執行和管理資訊系統。企業架構的目的是分析現狀,然後改造現狀以適...