特徵工程(5) 降維

2021-08-01 01:13:45 字數 723 閱讀 1757

當特徵選擇完成後,可以直接訓練模型了,但是可能由於特徵矩陣過大,導致計算量大,訓練時間長的問題,因此降低特徵矩陣維度也是必不可少的。

常見的降維方法除了上篇提到的基於l1懲罰項的模型以外,另外還有主成分分析法(pca)和線性判別分析(lda),線性判別分析本身也是乙個分類模型。pca和lda有很多的相似點,其本質是要將原始的樣本對映到維度更低的樣本空間中,但是pca和lda的對映目標不一樣:pca是為了讓對映後的樣本具有最大的發散性;而lda是為了讓對映後的樣本有最好的分類效能。所以說pca是一種無監督的降維方法,而lda是一種有監督的降維方法。

1、主成分分析法(pca)   

使用decomposition庫的pca類選擇特徵的**如下:

from sklearn.decomposition import pca  

#主成分分析法,返回降維後的資料 

#引數n_components為主成分數目 

pca(n_components=2).fit_transform(iris.data)

2、線性判別分析法(lda)   

使用lda庫的lda類選擇特徵的**如下:  

from sklearn.lda import lda  

#線性判別分析法,返回降維後的資料 

#引數n_components為降維後的維數 

lda(n_components=2).fit_transform(iris.data, iris.target)

機器學習 特徵工程 資料降維

定義 將原始資料轉換為更好地代表 模型的潛在問題的特徵的過程,從而提高了對未知資料的 準確性。內容 主要有三部分 1 特徵抽取 2 特徵預處理 3 資料的降維 機器學習領域中所謂的降維就是指採用某種對映方法,將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習乙個對映函式 f x y,其中x...

過濾特徵 特徵工程3 缺失值及資料降維

缺失值的處理 由於各種原因,許多現實世界的資料集包含缺少的值,通常編碼為空白,nan或其他佔位符。然而,這樣的資料集與scikit learn的分類器不相容,它們假設陣列中的所有值都是數字,並且都具有和保持含義。使用不完整資料集的基本策略是丟棄包含缺失值的行或列。然而,這樣的代價是可能丟失有價值的資...

特徵工程3 缺失值及資料降維

缺失值的處理 由於各種原因,許多現實世界的資料集包含缺少的值,通常編碼為空白,nan或其他佔位符。然而,這樣的資料集與scikit learn的分類器不相容,它們假設陣列中的所有值都是數字,並且都具有和保持含義。使用不完整資料集的基本策略是丟棄包含缺失值的行或列。然而,這樣的代價是可能丟失有價值的資...