機器學習特徵選擇

1、特徵選擇

特徵選擇是一種及其重要的資料預處理方法。假設你需要處理乙個監督學習問題，樣本的特徵數非常大（甚至），但是可能僅僅有少部分特徵會和對結果產生影響。甚至是簡單的線性分類，如果樣本特徵數超過了n，但假設函式的vc維確仍然是o(n)，那麼，除非大大擴充套件訓練集的數量，否則即會帶來過擬合的問題。在這樣的情況下，可以使用特徵選擇演算法降低特徵的數量。

假設樣本有n個特徵，那麼，其有種可能的特徵子集，如果特徵選擇需要去窮舉所有種可能的特徵子集，對於n比較大的情況，計算的代價太大，無法真正實現。

特徵選擇的定義 :對當前學習任務有價值的屬性稱為是「相關特徵」，沒有價值的屬性稱為是「無關特徵」，從給定的特徵集中選擇出相關特徵子集的過程，就稱為是「特徵選擇」。其中還有一種特徵稱為是「冗餘特徵」，這些特徵指的是可以從其他特徵中推演出來的特徵。

特徵選擇是乙個「資料預處理」過程，它的重要性體現在兩個方面：

1）減輕維度災難問題。

2）去除無關特徵可以降低學習的難度。

2、包裹式選擇

與過濾式選擇不考慮後續學習器不同，包裹式選擇直接把最終將要使用的學習器的效能作為特徵子集的評價依據，也就是說，包裹式特徵選擇是為給定的學習器選擇最有利的特徵子集。

與過濾式選擇相比，包裹式選擇的效果一般會更好，但由於在特徵選擇過程中需要多長訓練學習器，因此包裹式選擇的計算開銷要大很多。

lvw 基於拉斯維加斯方法的框架，拉斯維加斯方法是乙個典型的隨機化方法，即概率演算法中的一種。它具有概率演算法的特點，允許演算法在執行的過程中隨機選擇下一步，許多情況下，當演算法在執行過程中面臨乙個選擇時，隨機性選擇常比最優選擇要省時，因此概率演算法可在很大程度上降低演算法的複雜度。

拉斯維加斯演算法不會得到不正確的解，一旦用拉斯維加斯演算法找到乙個解，那麼這個解一定就是正確的解，但有時用拉斯維加斯演算法找不到解。

lvw 基於拉斯維加斯方法的框架，假設資料集為 d，特徵集為 a，則 lvw 每次從特徵集 a 中隨機產生乙個特徵子集 a′，然後使用交叉驗證的方法（偽**的第 8 步）估計學習器在特徵子集 a′上的誤差，若該誤差小於之前獲得的最小誤差，或者與之前的最小誤差相當但 a′中包含的特徵數更少，則將 a′保留下來。

由於 lvw 演算法每次評價子集 a′ 時，都需要重新訓練學習器，計算開銷很大，因此設定了引數 t 來控制停止條件。但當特徵數很多（即 |a| 很大）並且 t 設定得很大時，可能演算法執行很長時間都不能停止。

3、其他的特徵選擇方法

其他的還有很多，如：

子集搜尋與評價

過濾式選擇

嵌入式選擇

機器學習 特徵選擇

機器學習 特徵選擇

機器學習 特徵選擇

機器學習 特徵選擇

相關推薦

機器學習特徵選擇

機器學習特徵選擇

機器學習特徵選擇

機器學習特徵選擇