4 特徵選擇方法

特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集，工程上常用的方法有以下：

a.計算每乙個特徵與響應變數的相關性：工程上常用的手段有計算皮爾遜係數和互資訊係數，

皮爾遜係數只能衡量線性相關性而互資訊係數能夠很好地度量各種相關性，但是計算相對複雜一些，

好在很多toolkit裡邊都包含了這個工具（如sklearn的mine），得到相關性之後就可以排序選擇特徵了.(其實就是計算輸出關於輸入的導數，如果某個特徵很大程度上影響了輸出，那麼該特徵就會比較重要)。

b. 構建單個特徵的模型，通過模型的準確性為特徵排序，藉此來選擇特徵，

另外，記得jmlr'03上有一篇**介紹了一種基於決策樹的特徵選擇方法，本質上是等價的。當選擇到了目標特徵之後，再用來訓練最終的模型；

c. 通過l1正則項來選擇特徵：l1正則方法具有稀疏解的特性，因此天然具備特徵選擇的特性，但是要注意，

l1沒有選到的特徵不代表不重要，原因是兩個具有高相關性的特徵可能只保留了乙個，如果要確定哪個特徵重要應再通過l2正則方法交叉檢驗；

d. 訓練能夠對特徵打分的預選模型：randomforest和logistic regression等都能對模型的特徵打分，通過打分獲得相關性後再訓練最終模型；

e. 通過特徵組合後再來選擇特徵：如對使用者id和使用者特徵最組合來獲得較大的特徵集再來選擇特徵，這種做法在推薦系統和廣告系統中比較常見，

這也是所謂億級甚至十億級特徵的主要**，原因是使用者資料比較稀疏，組合特徵能夠同時兼顧全域性模型和個性化模型，這個問題有機會可以展開講。

f. 通過深度學習來進行特徵選擇：目前這種手段正在隨著深度學習的流行而成為一種手段，尤其是在計算機視覺領域，原因是深度學習具有自動學習特徵的能力，

這也是深度學習又叫unsupervisedfeature learning的原因。從深度學習模型中選擇某一神經層的特徵後就可以用來進行最終目標模型的訓練了

4 特徵選擇

過濾式方法先對資料集進行特徵選擇，然後再訓練學習器，特徵選擇過程與後續學習器無關。這相當於先用特徵選擇對初始特徵進行過濾再用過濾後的特徵來訓練模型。relief relevant features kira and rendell，1992 是一種著名的過濾式特徵選擇方法，該方法設計了乙個相關...

特徵選擇方法

特徵獲取過程特徵獲取定義的角度特徵獲取要解決的兩個問題啟發式方法為一種近似演算法，具有很強的主觀傾向。隨機方法是一種相對較新的方法，細分為完全隨機方法和概率隨機方法兩種。總的說來，上述三類中只有窮舉法能保證最優，但耗時並且計算複雜度很高，後兩者以效能為代價換取簡單快速的實現，但不能保證最優。...

4 特徵選擇方法

4 特徵選擇

特徵選擇方法

特徵選擇方法

相關推薦