特徵選擇總體過程和理解

2021-07-30 13:42:02 字數 827 閱讀 1054

參考大神:

個人理解:

1、特徵選擇:

從原始的高維特徵向量集合中,選擇出m個最能代表向量空間的向量作為子集。去除掉冗餘,最大化相關。

2、 特徵選擇的理由:

原始提取出的特徵一般數量很大,維度很高。在用分類器進行分類的時候,往往太耗費時間。特徵選擇能夠選出最具代表性的特徵,來優化模型,較少冗餘。可以提高分類器的速度和準確度,還能提高可理解性。

3、特徵選擇過程:

可以分為四個部分:產生過程;評價函式;停止準則;驗證過程。

1)產生過程:利用搜尋函式,選擇出之前確定的m個特徵子集。搜尋函式有例如:sfs,bds, sffs 等。

2) 評價函式:可以分為篩選器和封裝器兩種。

filter: 利用某乙個函式,作為對子集特徵好壞的評價。相關的函式例如:相關,距離,資訊增量,分類錯誤率,一致性,這些準則。

4)驗證過程:利用已經了解分類的測試集,進行測試驗證。

大體的降維過程:

原始材料  

- - -- 提取高維特徵(eg. pcet)- - >原始高維特徵集合------特徵選擇(eg. sffs )--->適當的特徵子集。  

( - - - 分類器- ----->合適的分類)

對於特徵的評價也可以通過很多已有的程式來完成,比如說matlab 中的svm.

在模式識別中:

作為訓練集的資料,會事先給出,高維資料,和 其所屬的類別c.  首先進行特徵降維的時候,會選擇出前m個和c關聯最大的特徵向量。  相關程度可以通過互資訊 i (xi;c) 來測量。不過研究表明,並非前m個最大相關的特徵會導致最好的分類效果。 因此還要進行一定的處理,比如說去掉冗餘之類的。

特徵選擇和特徵抽取

特徵提取演算法分為特徵選擇和特徵抽取兩大類。特徵選擇 不改變原始的特徵資料,只是選擇一部分出來。其中常用的特徵選擇演算法有 1 df document frequency 文件頻率 df 統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性 2 mi mutual information 互資訊法 ...

特徵值和特徵向量理解

1 線性變換 首先來個線性方程組 換個表達方式,所以可以寫成如下格式,現在有矩陣a,列向量x和y,向量x通過矩陣a線性變換到y,如下圖 2 接下來,我們說明上述公式的幾何意義。也就是 這就一目了然了,x 經過線性變換後變為y,涉及到了兩個變化,伸縮和旋轉,也就是x先作伸縮變換,然後旋轉到y的位置。矩...

維度災難和特徵選擇

4.怎麼避免維度災難 一句話 維度是乙個數字,表徵每個樣本中特徵的數量。機器學習中,對於資料一般用n m n mn m矩陣表達,n nn表示樣本 sample 數量,m mm表示特徵 attribute feature variable 數量。如下圖,即是4 2 4 24 2的矩陣,表示有4條資料,...