(八)特徵選擇與特徵提取

2021-10-14 13:47:40 字數 4238 閱讀 9040

在描述物件的時候

模式識別中把每個物件都量化為一組特徵來描述,構建特徵空間是解決模式識別問題的第一步,其中通過直接測量得到的特徵稱為原始特徵

如: - 人體的各種生理指標(以描述健康狀況) - 數字影象中的每點的灰度值(以描述影象內容)

原始特徵的形成一般包含三大類:物理、結構和數學特徵

物理和結構特徵:易於為人的直覺感知,但是有時難以定量描述,因此不利於機器判別數學特徵:易於用機器判別和分析,如統計特徵。

原始特徵是我們直接測量獲得的,但是往往不用於模式識別中,主要有以下幾個原因:

1、原始特徵不能反映物件的本質特徵;

2、高維的原始特徵不利於分類器的設計;

3、計算量大,如對於一幅1024768的灰度影象,灰度級為256級,直接表示需要786432 bytes,進行訓練識別所需的空間、時間和計算量都無法接受冗餘,原始特徵空間中,大量的特徵都是相關性強的冗餘特徵樣本分佈十分稀疏,對於有限訓練樣本而言,在高維的原始特徵空間中分布十分稀疏

如果將數目過多的測量值不做分析,直接用於分類特徵,不但耗時,而且會影響分類效果,產生「維數災難」等問題。

針對原始特徵以上的特性和不足,為了設計出更好的分類器,通常需要對原始特徵的測量值集合進行分析,經過選擇變換處理,組成有效的識別特徵。 處理方式主要有以下思路:

1、在保證一定分類精度的前提下,減少特徵維數,進行「降維」處理,使分類器實現快速、準確、高效的分類;

2、去掉模稜兩可、不利於分類的特徵,使得提供的特徵具有更好的可分性,使分類器容易判別;

3、提供的特徵不應重複,即去掉相關性強但是沒有增加更多分類資訊的特徵。即特徵選擇

對於乙個特定的學習演算法來說,哪乙個特徵是有效的是未知的。因此,需要從所有特徵中選擇出對於學習演算法有益的相關特徵。

進行特徵選擇的主要目的:

• 降維

• 降低學習任務的難度

• 提公升模型的效率

特徵選擇定義:

從n個特徵中選擇其中m(m<=n)個子特徵,並且在m個子特徵中,準則函式可以達到最優解。

特徵選擇想要做的是:選擇盡可能少的子特徵,模型的效果不會顯著下降,並且結果的類別分布盡可能的接近真實的類別分布。

通俗的理解就是:

特徵選擇指從原始特徵中挑選出一組最有代表性、分類效能好的特徵。

注意!注意!注意! 特徵選擇是指從已有的特徵集合中按某一分類準則選出一組子特徵集和作為降維的分類特徵使用。

特徵選擇主要包括四個過程:

生成過程:生成候選的特徵子集;從原始特徵集中選擇特徵的過程,選擇出的特徵叫特徵子集

評價函式:評價特徵子集的好壞;

停止條件:決定什麼時候該停止;

驗證過程:特徵子集是否有效;

1、生成過程

生成過程是乙個搜尋過程,這個過程主要有以下三個策略:

完全搜尋:根據評價函式做完全搜尋。完全搜尋主要有兩種:窮舉搜尋和非窮

舉搜尋;

啟發式搜尋:根據一些啟發式規則在每次迭代時,決定剩下的特徵是應該被選

擇還是被拒絕。這種方法很簡單並且速度很快。

隨機搜尋:每次迭代時會設定一些引數,引數的選擇會影響特徵選擇的效果。

由於會設定一些引數(例如最大迭代次數)。

2、停止條件

停止條件用來決定迭代過程什麼時候停止,生成過程和評價函式可能會對於怎麼選擇停止條

件產生影響。停止條件有以下四種選擇:

達到預定義的最大迭代次數;

達到預定義的最大特徵數;

增加(刪除)任何特徵不會產生更好的特徵子集;

根據評價函式,產生最優特徵子集;

3、評價函式

評價函式主要用來評價選出的特徵子集的好壞,乙個特徵子集是最優的往往指相對於特定的評價函式來說的。評價函式主要用來度量乙個特徵(或者特徵子集)可以區分不同類別的能力。根據具體的評價方法主要有三類:

• 過濾式(filter):先進行特徵選擇,然後去訓練學習器,所以特徵選擇的過程與學習器無關。相當於先對於特徵進行過濾操作,然後用特徵子集來訓練分類器。

其主要思想是:對每一維的特徵「打分」,即給每一維的特徵賦予權重,這樣的權重就代表著該維特徵的重要性,然後依據權重排序。

主要的方法有:chi-squared test(卡方檢驗),id3(資訊增益),correlation coefficient scores(相關係數)

其主要思想是:將子集的選擇看作是乙個搜尋尋優問題,生成不同的組合,對組合進行評價,再與其他的組合進行比較。這樣就將子集的選擇看作是乙個是乙個優化問題,這裡有很多的優化演算法可以解決,尤其是一些啟發式的優化演算法,如ga,pso,de,abc等,

主要方法有:recursive feature elimination algorithm(遞迴特徵消除演算法)

其主要思想是:在模型既定的情況下學習出對提高模型準確性最好的屬性。這句話並不是很好理解,其實是講在確定模型的過程中,挑選出那些對模型的訓練有重要意義的屬性。

主要方法:正則化。如嶺回歸就是在基本線性回歸的過程中加入了正則項。

一般有5種比較常見的評價函式:

距離度量:如果 x 在不同類別中能產生比 y 大的差異,那麼就說明 x 要好於 y;

資訊度量:主要是計算乙個特徵的資訊增益(度量先驗不確定性和期望, 後驗不確定性

之間的差異);

依賴度量:主要用來度量從乙個變數的值**另乙個變數值的能力。最常見的是相關係

數:用來發現乙個特徵和乙個類別的相關性。如果 x 和類別的相關性高於 y與類別的相關

性,那麼x優於y。對相關係數做一點改變,用來計算兩個特徵之間的依賴性,值代表著兩

個特徵之間的冗餘度。

一致性度量:對於兩個樣本,如果它們的類別不同,但是特徵值是相同的,那麼它們是

不一致的;否則是一致的。找到與全集具有同樣區分能力的最小子集。嚴重依賴於特定的

訓練集和 最小特徵偏見(min-feature bias)的用法;找到滿足可接受的不一致率(使用者

指定的引數)的最小規模的特徵子集。

特徵是什麼:常見的特徵有邊緣、角、區域等。

特徵提取:是通過屬性間的關係,如組合不同的屬性得到新的屬性,這樣就改變了原來的

特徵空間。本質是一種對映。將m維特徵對映為n維特徵 n目前影象特徵的提取主要有兩種方法:傳統影象特徵提取方法 和 深度學習方法。

傳統的特徵提取方法:基於影象本身的特徵進行提取;

深度學習方法:基於樣本自動訓練出區分影象的特徵分類器;

特徵提取的主要方法:pca

特徵選擇(feature selection)和特徵提取(feature extraction)都屬於降維(dimension

reduction)

傳統的影象特徵提取一般分為三個步驟:預處理、特徵提取、特徵處理;然後再利用機器學習等方法對特徵進行分類等操作;

預處理:預處理的目的主要是排除干擾因素,突出特徵資訊;主要的方法有:

特徵提取:利用特殊的特徵提取子對影象進行特徵提取。

特徵處理:主要目的是為了排除資訊量小的特徵,減少計算量等:常見的特徵處理方法是降維,

常見的降維方法有:

1. 主成分分析(pca);

2. 奇異值分解(svd);

3. 線性判別分析;

參考

特徵選擇與特徵提取

一 特徵選擇和特徵提取 特徵選擇 feature selection 和特徵提取 feature extraction 都屬於降維 dimension reduction 這兩者達到的效果是一樣的,就是試圖去減少特徵資料集中的屬性 或者稱為特徵 的數目 但是兩者所採用的方式方法卻不同。特徵提取的方法...

特徵提取,特徵選擇,降維

特徵提取就是將機器學習演算法不理解的原始資料抽取特徵出來,這些特徵可以描述原始的資料,使得這些特徵可以被機器學習演算法所理解,這些特徵也就作為機器學習演算法的輸入。在machine learning中,特徵降維和特徵選擇是兩個常見的概念,在應用machine learning來解決問題的 中經常會出...

特徵工程 特徵提取

特徵提取 將任意資料 如文字或影象 轉換為可用於機器學習的數字特徵 注 特徵值化是為了計算機更好的去理解資料 字典特徵提取 作用 對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...