特徵選擇包裹式選擇

包裹式選擇與過濾式選擇不考慮後續學習器不同，直接把最終使用的學習器的效能作為特徵子集的評價準則。換言之，包裹式選擇的目的就是為給定學習器選擇最有利於其效能、「量身定做」的特徵子集。

【與過濾式選擇的區別】：

遞迴特徵消除（recursive feature elimination）使用乙個基模型（學習器）來進行多輪訓練，每輪訓練後移除若干特徵，再基於新的特徵集進行下一輪訓練。

【sklearn 官方解釋】：對特徵含有權重的**模型，rfe 通過遞迴減少待考察特徵集規模來選擇特徵。

首先，**模型在原始特徵集上進行訓練，通過 coef_ 屬性或 feature_importances_ 屬性為每個特徵指定乙個權重；

然後，剔除那些權重絕對值較小的特徵；

如此迴圈，直到剩餘的特徵數量達到所需的特徵數量。

需要注意的是，rfe 的穩定性很大程度上取決於迭代時，底層使用的**模型。如果 rfe 採用的是普通的邏輯回歸，沒有經過正則化的回歸是不穩定的，因此 rfe 也不穩定。若採用的是脊回歸 ridge 或 lasso，則 rfe 穩定。

關於 rfe 的具體介紹可參考 sklearn 的 rfe 傳送門

【**實現】：回歸問題

from sklearn.feature_selection import rfe
from sklearn.linear_model import lasso
# 引入資料集
dataset_boston = load_boston(
)data_boston = dataset_boston.data
target_boston = dataset_boston.target
rfe = rfe(estimator=lasso(
), n_features_to_select=4)
rfe.fit(data_boston, target_boston)
print
(rfe.support_)
# 輸出
array(
[false
,false
,false
,false
,false
,true
,false
,true
,false
,false
,true
,false
,true
])

【**實現】：分類問題

from sklearn.feature_selection import rfe
# 引入資料集
dataset_iris = load_iris(
)data_iris = dataset_iris.data
target_iris = dataset_iris.target
rfe = rfe(estimator=decisiontreeclassifier(
), n_features_to_select=2)
rfe.fit(data_iris, target_iris)
print
(rfe.support_)
array(
[false
,false
,true
,true
])

sklearn 還提供 rfecv 方法，該方法通過交叉驗證的方式執行 rfe，以此來選擇最佳數量的特徵：對於乙個數量為 d 的特徵集合，它的所有子集的個數是 2d−

12^d-1

2d−1

。例如 d = 3 時，子集個數為 23−

1=72^3-1=7

23−1=7

。舉個例子，特徵集為，那麼其所有特徵子集為、、、、、、。

rfe 找出所有的特徵子集後，分別計算所有特徵子集的驗證誤差，選擇誤差最小的特徵子集作為挑選的特徵。

【**實現】：

from sklearn.feature_selection import rfecv
rfecv = rfecv(estimator=decisiontreeclassifier())
rfecv.fit(data_iris, target_iris)
print
(rfecv.support_)
# 輸出
array(
[false
,false
,true
,true
])

lvw 是乙個典型的包裹式特徵選擇方法，它在拉斯維加斯（las vegas method）框架下使用隨機策略來進行子集搜尋，並以最終分類器的誤差為特徵子集評價準則。

【演算法】：

初始化誤差 e 為正無窮，d = |a|，a* = a，t = 0；

進入迴圈，迴圈停止條件為 while t < t；

隨機產生特徵子集 a』，設定 d』 = |a』|；

選擇特徵子集對應部分的資料集 da′

d^da

′，使用交叉驗證法來估計學習器 σ

\varsigma

σ 的誤差。誤差是特徵子集 a』上的誤差，若它比當前特徵子集 a 上的誤差更小，或誤差相當但 a』中包含的特徵數更少，則執行（a），否則執行（b）。

輸出特徵子集 a*。

【注意】：由於 lvw 演算法中特徵子集搜尋採用了隨機策略，而每次特徵子集評價都需要訓練學習器，計算開銷很大，因此演算法設定了停止條件控制引數 t。然而，整個 lvw 演算法是基於拉斯維加斯方法框架，若初始特徵數很多（即 |a| 很大）、t 設定較大，則演算法可能執行很長時間都達不到停止條件。換言之，若有執行時間限制，則有可能給不出解。

另外還有乙個經典的演算法——蒙特卡羅方法。這兩個以著名賭城名字命名的隨機化方法的主要區別是：若有時間限制，則拉斯維加斯方法或者給出滿足要求的解，或者不給出解；而蒙特卡羅方法一定會給出解，雖然給出的解未必滿足要求；若無時間限制，則兩者都能給出滿足要求的解。

特徵選擇包裹式選擇

特徵選擇單變數特徵選擇

模型選擇與特徵選擇

特徵選擇概述

特徵選擇 包裹式選擇

特徵選擇 單變數特徵選擇

模型選擇與特徵選擇

特徵選擇概述

相關推薦

特徵選擇包裹式選擇

特徵選擇單變數特徵選擇