sklearn學習 特徵選擇

2022-09-15 14:42:23 字數 784 閱讀 7534

當特徵特別多的時候,且有冗餘的情況下,對特徵進行選擇不僅能使訓練速度加快,還可以排除一些負面特徵的干擾。sklearnfeature_seletion提供了它許多特徵選取函式,目前包括單變數選擇方法遞迴特徵消除演算法。它們均為轉化器,故在此不舉例說明如何使用。

除了使用feature_seletion的方法選取特徵外,我們也可以選擇那些帶有特徵選擇的模型進行選擇特徵,例如隨機森林會根據特徵的重要程度對特徵打分。

使用pineline可以按順序構建從資料處理到和訓練模型的整個過程。pineline中間的步驟必須轉化器(對資料進行處理)。使用pineline的好處就是可以封裝乙個學習的過程,使得重新呼叫這個過程變得更加方便。中間的過程用多個二元組組成的列表表示。

from sklearn.pipeline import pipeline

from sklearn.decomposition import pca

pca = pca(n_components=2)

clf = logisticregression()

new_clf = pipeline([('pca',pca),('clf',clf)])

上面的封裝的估計器,會先用pca將資料降至兩維,在用邏輯回歸去擬合。

sklearn之特徵選擇

嵌入法是一種讓演算法自己決定使用哪些特徵的方法,即特徵選擇和演算法訓練同時進行。在使用嵌入法時,我們先使用某些機器學習的演算法和全部特徵對模型進行訓練,得到各個特徵的權值係數,根據權值係數從大到小選擇特徵。這些權值係數往往代表了特徵對於模型的某種貢獻或某種重要性,比如決策樹和樹的整合模型中的feat...

基於sklearn的特徵選擇方法

在資料探勘工作中,通常處理的是乙個包含大量特徵且含義未知的資料集,並基於該資料集挖掘到有用的特徵。那麼這裡面一般是四個步驟 特徵工程 特徵選擇 模型構造 模型融合。特徵工程主要是清洗特徵 刪除無用特徵和構造新特徵,經過特徵工程這個過程我們可能會得到大量的特徵 而特徵選擇的目的就是從這大量的特徵中挑選...

sklearn第十七講 特徵選擇

sklearn.feature selection模組裡的類能被用來在樣本集上作特徵選擇 或者叫維數降低,改善估計量的準確性 在高維空間的表現。下面我們介紹幾種常用的特徵選擇方法。variancethreshold是乙個簡單的特徵選擇基準方法。它刪除所有方差小於某閾值的特徵。預設刪除所有0方差特徵,...