特徵選擇理論篇

2. 包裹（warpper）

3. 嵌入法(embedding）

乙個典型的機器學習任務，是通過樣本的特徵來**樣本所對應的值。如果樣本的特徵少了，我們會考慮增加特徵，比如polynomial regression就是典型的增加特徵的演算法。但是模型特徵越多，模型的複雜度也就越高，越容易導致過擬合。而現實中的情況，往往是特徵太多了，需要減少一些「無關特徵」。

常見的方法包括過濾法（filter）、包裹法（warpper），嵌入法(embedding）。

過濾法只用於檢驗特徵向量和目標（響應變數）的相關度，不需要任何的機器學習的演算法，不依賴於任何模型，只是應用統計量做篩選：我們根據統計量的大小，設定合適的閾值，將低於閾值的特徵剔除。可用點互資訊pmi值衡量特徵向量和目標（響應變數）的相關性

點互資訊pmi(pointwise mutual information)這個指標來衡量兩個事物之間的相關性.其原理如下：

python **實現：

from sklearn import metrics as mr
mr.mutual_info_score(label,x)

與過濾法不同的是，包裹法採用的是特徵搜尋的辦法。它的基本思路是，從初始特徵集合中不斷的選擇子集合，根據學習器的效能來對子集進行評價，直到選擇出最佳的子集。在搜尋過程中，我們會對每個子集做建模和訓練。

特徵選擇 理論篇