sklearn學習特徵選擇

2022-09-15 14:42:23 字數 784 閱讀 7534

當特徵特別多的時候，且有冗餘的情況下，對特徵進行選擇不僅能使訓練速度加快，還可以排除一些負面特徵的干擾。sklearn的feature_seletion提供了它許多特徵選取函式，目前包括單變數選擇方法和遞迴特徵消除演算法。它們均為轉化器，故在此不舉例說明如何使用。

除了使用feature_seletion的方法選取特徵外，我們也可以選擇那些帶有特徵選擇的模型進行選擇特徵，例如隨機森林會根據特徵的重要程度對特徵打分。

使用pineline可以按順序構建從資料處理到和訓練模型的整個過程。pineline中間的步驟必須轉化器（對資料進行處理）。使用pineline的好處就是可以封裝乙個學習的過程，使得重新呼叫這個過程變得更加方便。中間的過程用多個二元組組成的列表表示。

from sklearn.pipeline import pipeline
from sklearn.decomposition import pca
pca = pca(n_components=2)
clf = logisticregression()
new_clf = pipeline([('pca',pca),('clf',clf)])

上面的封裝的估計器，會先用pca將資料降至兩維，在用邏輯回歸去擬合。

sklearn之特徵選擇

嵌入法是一種讓演算法自己決定使用哪些特徵的方法，即特徵選擇和演算法訓練同時進行。在使用嵌入法時，我們先使用某些機器學習的演算法和全部特徵對模型進行訓練，得到各個特徵的權值係數，根據權值係數從大到小選擇特徵。這些權值係數往往代表了特徵對於模型的某種貢獻或某種重要性，比如決策樹和樹的整合模型中的feat...

基於sklearn的特徵選擇方法

在資料探勘工作中，通常處理的是乙個包含大量特徵且含義未知的資料集，並基於該資料集挖掘到有用的特徵。那麼這裡面一般是四個步驟特徵工程特徵選擇模型構造模型融合。特徵工程主要是清洗特徵刪除無用特徵和構造新特徵，經過特徵工程這個過程我們可能會得到大量的特徵而特徵選擇的目的就是從這大量的特徵中挑選...

sklearn第十七講特徵選擇

sklearn.feature selection模組裡的類能被用來在樣本集上作特徵選擇或者叫維數降低，改善估計量的準確性在高維空間的表現。下面我們介紹幾種常用的特徵選擇方法。variancethreshold是乙個簡單的特徵選擇基準方法。它刪除所有方差小於某閾值的特徵。預設刪除所有0方差特徵，...