TF IDF關鍵詞提取方法的學習

2021-08-09 09:54:02 字數 1004 閱讀 2696

tf-idf(term frequency–inverse document frequency)是一種用於資訊檢索與資料探勘的常用加權技術。tf意思是詞頻(term frequency),idf意思是逆向檔案頻率(inverse document frequency)。

最近學習了阮一峰先生關於tf-idf演算法的講解,受益匪淺,特記錄一下學習的過程。

tf,即某個詞在某篇文章中出現的總次數,但出現的多的詞,不一定是最重要的,如之乎者也類的《是》,《也》,《的》,《好》等,這類詞不能幫助我們去找到文章的旨意,是需要濾除掉的詞,被稱為「停用詞」。

此外,在一篇文章中,出現次數一樣的詞,重要性也不一定一樣,如在一篇介紹感冒和發燒是否相關的醫學類文獻裡,可能「感冒」、「發燒」、「生病」出現的頻次是一樣的,但是「生病」明顯不能用於探索該文獻的主旨,因此重要性程度,遠小於其他2個詞。

用統計學的語言表述,就是在詞頻的基礎上,對每乙個詞分配乙個「重要性」權重。

在上述這個場景中,之乎者也類的《是》,《也》,《的》,《好》的需要分配乙個極小權重,較常見的「生病」需要分配乙個較小的權重,而較少出現的詞「感冒」,「發燒」(這兩個詞也較為常見,用在這裡只是說明其相對於其他停用詞,和特常見的詞,顯得比較稀缺)。這樣一種權重概念即稱為 idf (逆文件頻率)。

而tf-idf是詞頻 與 逆文件頻率的 乘積,即:

tf-idf = tf * idf

其中:tf   =  乙個詞在文章中的出現次數  /  文章的總詞數

idf = log(語料庫中的文件總數 / 某個詞在某篇文章中出現的次數)注:

語料庫:

指經科學取樣和加工的大規模電子文字庫。借助計算機分析工具,研究者可開展相關的語言理論及應用研究。

由此可見,tf-idf的大小與 「乙個詞在文章中的出現次數」 成正比,與 其「在語料庫中的存在次數」成反比。

-- 演算法講解

TF IDF 提取關鍵詞

class document p s p p string,1,preg split no empty this build tf else public function build tf public function build tfidf idf else arsort this tfidf...

提取關鍵詞 tf idf演算法講解

結果你肯定猜到了,出現次數最多的詞是 的 是 在 這一類最常用的詞。它們叫做 停用詞 stop words 表示對找到結果毫無幫助 必須過濾掉的詞。用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配乙個 重要性 權重。最常見的詞 的 是 在 給予最小的權重,較常見的詞 中國 給予較小的權重,較少見...

TF IDF演算法提取文章的關鍵詞

初學中文文字分詞,從最簡單的tf idf演算法入手,理解其中的邏輯結構,其中使用jieba分詞包作為分詞模型。這裡部分內容參考了 hahaha的部落格。tf idf原理 舉個例子 我們在大學選修了數學和體育兩門課,數學為9學分,體育為1學分,期末的時候考試成績分別為60和100分,那麼如果我們說平均...