特徵選擇 理論篇

2021-09-12 04:06:50 字數 680 閱讀 4208

2. 包裹(warpper)

3. 嵌入法(embedding)

乙個典型的機器學習任務,是通過樣本的特徵來**樣本所對應的值。如果樣本的特徵少了,我們會考慮增加特徵,比如polynomial regression就是典型的增加特徵的演算法。但是模型特徵越多,模型的複雜度也就越高,越容易導致過擬合。而現實中的情況,往往是特徵太多了,需要減少一些「無關特徵」。

常見的方法包括過濾法(filter)、包裹法(warpper),嵌入法(embedding)。

過濾法只用於檢驗特徵向量和目標(響應變數)的相關度,不需要任何的機器學習的演算法,不依賴於任何模型,只是應用統計量做篩選:我們根據統計量的大小,設定合適的閾值,將低於閾值的特徵剔除。可用點互資訊pmi值衡量特徵向量和目標(響應變數)的相關性

點互資訊pmi(pointwise mutual information)這個指標來衡量兩個事物之間的相關性.其原理如下:

python **實現:

from sklearn import metrics as mr

mr.mutual_info_score(label,x)

與過濾法不同的是,包裹法採用的是特徵搜尋的辦法。它的基本思路是,從初始特徵集合中不斷的選擇子集合,根據學習器的效能來對子集進行評價,直到選擇出最佳的子集。在搜尋過程中,我們會對每個子集做建模和訓練。

語音識別特徵 MFCC(理論篇)

語音特徵提取 mfcc 理論篇 1 預加重 分幀以及加窗 語音識別中特徵提取過程首先進行預加重 分幀以及加窗操作,其具體理論如下 1.1 預加重 語音頻號的預加重,目的是為了對語音的高頻部分進行加重,去除口唇輻射的影響,增加語音的高頻解析度,其定義如下 一階fir高通數字濾波器來實現預加重,其中a為...

NLP 理論實踐 Task3 特徵選擇

task3 tf idf原理。文字矩陣化,使用詞袋模型,以tf idf特徵值為權重。可以使用python中tfidftransformer庫 互資訊的原理。使用第二步生成的特徵矩陣,利用互資訊進行特徵篩選。tf idf term frequency inverse document frequenc...

特徵模理論

新人第一次寫部落格,想要給自己的研究生做一些記錄和總結。本人主要研究的是特徵模理論及其在天線方面的一些應用,首先從特徵模理論整理開始。現在的天線設計,隨著設計指標要求的增多使得天線的結構越來越複雜,單純依賴傳統的解析方法已經很難對天線進行精確的分析,因此利用商用軟體 如 hfss feko ie3d...