特徵選擇方法之TF IDF DF

2021-08-11 01:25:48 字數 1588 閱讀 9479

tf_idf, df都是通過簡單的統計來選擇特徵,因此把它們放在一塊介紹

1、tf-idf

單詞權重最為有效的實現方法就是tf*idf, 它是由salton在1988 年提出的。其中tf 稱為詞頻, 用於計算該詞描述文件內容的能力; idf 稱為反文件頻率, 用於計算該詞區分文件的能力。tf*idf 的指導思想建立在這樣一條基本假設之上: 在乙個文字中出現很多次的單詞, 在另乙個同類文字中出現次數也會很多, 反之亦然。所以如果特徵空間座標系取tf 詞頻作為測度, 就可以體現同類文字的特點。另外還要考慮單詞區別不同類別的能力, tf*idf 法認為乙個單詞出現的文字頻率越小, 它區別不同類別的能力就越大, 所以引入了逆文字頻度idf 的概念, 以tf 和idf 的乘積作為特徵空間座標系的取值測度。

tfidf 法是以特徵詞在文件d中出現的次數與包含該特徵詞的文件數之比作為該詞的權重,即

tfidf演算法是建立在這樣乙個假設之上的:對區別文件最有意義的詞語應該是那些在文件中出現頻率高,而在整個文件集合的其他文件中出現頻率少的詞語,所以如果特徵空間座標系取tf詞頻作為測度,就可以體現同類文字的特點。另外考慮到單詞區別不同類別的能力,tfidf法認為乙個單詞出現的文字頻數越小,它區別不同類別文字的能力就越大。因此引入了逆文字頻度idf的概念,以tf和idf的乘積作為特徵空間座標系的取值測度,並用它完成對權值tf的調整,調整權值的目的在於突出重要單詞,抑制次要單詞。但是在本質上idf是一種試圖抑制噪音的加權,並且單純地認為文字頻數小的單詞就越重要,文字頻數大的單詞就越無用,顯然這並不是完全正確的。idf的簡單結構並不能有效地反映單詞的重要程度和特徵詞的分布情況,使其無法很好地完成對權值調整的功能,所以tfidf法的精度並不是很高。

此外,在tfidf演算法中並沒有體現出單詞的位置資訊,對於web文件而言,權重的計算方法應該體現出html的結構特徵。特徵詞在不同的標記符中對文章內容的反映程度不同,其權重的計算方法也應不同。因此應該對於處於網頁不同位置的特徵詞分別賦予不同的係數,然後乘以特徵詞的詞頻,以提高文字表示的效果。

2、文件頻次方法(document frequency)

文件頻數(document frequency, df)是最為簡單的一種特徵選擇演算法,它指的是在整個資料集中有多少個文字包含這個單詞。在訓練文字集中對每個特徵計一算它的文件頻次,並且根據預先設定的闌值去除那些文件頻次特別低和特別高的特徵。文件頻次通過在訓練文件數量中計算線性近似複雜度來衡量巨大的文件集,計算複雜度較低,能夠適用於任何語料,因此是特徵降維的常用方法。

在訓練文字集中對每個特徵計算它的文件頻數,若該項的df 值小於某個閾值則將其刪除,若其df 值大於某個閾值也將其去掉。因為他們分別代表了「沒有代表性」和「沒有區分度」2 種極端的情況。df 特徵選取使稀有詞要麼不含有用資訊,要麼太少而不足以對分類產生影響,要麼是噪音,所以可以刪去。df 的優點在於計算量很小,而在實際運用中卻有很好的效果。缺點是稀有詞可能在某一類文字中並不稀有,也可能包含著重要的判斷資訊,簡單捨棄,可能影響分類器的精度。

文件頻數最大的優勢就是速度快,它的時間複雜度和文字數量成線性關係,所以非常適合於超大規模文字資料集的特徵選擇。不僅如此,文件頻數還非常地高效,在有監督的特徵選擇應用中當刪除90%單詞的時候其效能與資訊增益和x2 統計的效能還不相上下。df 是最簡單的特徵項選取方法, 而且該方法的計算複雜度低, 能夠勝任大規模的分類任務。

特徵選擇方法

特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...

特徵選擇方法

特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...

特徵選擇方法

特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...