機器學習特徵工程

*老師有多年的網際網路從業經驗，所以講解的過程中結合了很多任務業界的應用，更加的深入淺出。

資料採集：資料採集前需要明確採集哪些資料，一般的思路為：哪些資料對最後的結果**有幫助？資料我們能夠採集到嗎？線上實時計算的時候獲取是否快捷？

舉例1：我現在要**使用者對商品的下單情況，或者我要給使用者做商品推薦，那我需要採集什麼資訊呢？

-店家：店鋪的評分、店鋪類別……

-商品：商品評分、購買人數、顏色、材質、領子形狀……

-使用者：歷史資訊（購買商品的最低價最**）、消費能力、商品停留時間……

資料清洗：資料清洗也是很重要的一步，機器學習演算法大多數時候就是乙個加工機器，至於最後的產品如何，取決於原材料的好壞。資料清洗就是要去除髒資料，比如某些商品的刷單資料。

那麼如何判定髒資料呢？

1) 簡單屬性判定：乙個人身高3公尺+的人；乙個人乙個月買了10w的發卡。

2) 組合或統計屬性判定：號稱在公尺國卻ip一直都是大陸的新聞閱讀使用者？你要判定乙個人是否會買籃球鞋，樣本中女性使用者85%？

3) 補齊可對應的預設值：不可信的樣本丟掉，預設值極多的字段考慮不用。

資料取樣：採集、清洗過資料以後，正負樣本是不均衡的，要進行資料取樣。取樣的方法有隨機取樣和分層抽樣。但是隨機取樣會有隱患，因為可能某次隨機取樣得到的資料很不均勻，更多的是根據特徵採用分層抽樣。

我們把特徵工程的資料分別下面幾種型別，分別來看一下其特點。

幅度調整/歸一化：python中會有一些函式比如preprocessing.minmaxscaler()將幅度調整到 [0,1] 區間。

統計值：包括max, min, mean, std等。python中用pandas庫序列化資料後，可以得到資料的統計值。

離散化：把連續值轉成非線性資料。例如電商會有各種連續的**表，從0.03到100元，假如以一元錢的間距分割成99個區間，用99維的向量代表每乙個**所處的區間，1.2元和1.6元的向量都是 [0,1,0,…,0]。pd.cut() 可以直接把資料分成若干段。

柱狀分布：離散化後統計每個區間的個數做柱狀圖。

類別型一般是文字資訊，比如顏色是紅色、黃色還是藍色，我們儲存資料的時候就需要先處理資料。處理方法有：

1.one-hot編碼，編碼後得到啞變數。統計這個特徵上有多少類，就設定幾維的向量，pd.get_dummies()可以進行one-hot編碼。

２.hash編碼成詞向量：

３.histogram對映：把每一列的特徵拿出來，根據target內容做統計，把target中的每個內容對應的百分比填到對應的向量的位置。優點是把兩個特徵聯絡起來。

上表中，我們來統計「性別與愛好的關係」，性別有「男」、「女」，愛好有三種，表示成向量 [散步、足球、看電視劇集]，分別計算男性和女性中每個愛好的比例得到：男[1/3, 2/3, 0]，女[0, 1/3, 2/3]。即反映了兩個特徵的關係。

時間型特徵的用處特別大，既可以看做連續值（持續時間、間隔時間），也可以看做離散值（星期幾、幾月份）。資料探勘中經常會用時間作為重要特徵，比如電商可以分析節假日和購物的關係，一天中使用者喜好的購物時間等。

歷屆的kaggle/天池比賽，天貓/京東排序和推薦業務線裡模型用到的特徵。統計的內容包括加減平均、分位線、次序型、比例類等。

比如「天池大資料之移動推薦演算法大賽」中，給比賽選手兩張表，介紹使用者和商品資訊，要求**把哪些商品推薦給使用者，使用者最有可能購買。下面是兩張表的內容：

下面舉例說明選手們是怎麼進行特徵處理的：

可見，選手需要進行制定規則、資料清洗、各個種類的特徵處理等，對特徵的研究是非常細化的。

1. 拼接型：簡單的組合特徵。例如挖掘使用者對某種型別的喜愛，對使用者和型別做拼接。正負權重，代表喜歡或不喜歡某種型別。

- user_id&&category: 10001&&女裙 10002&&男士牛仔

- user_id&&style: 10001&&蕾絲 10002&&全棉　　

2. 模型特徵組合：

- 用gbdt產出特徵組合路徑

- 組合特徵和原始特徵一起放進lr訓練

特徵選擇，就是從多個特徵中，挑選出一些對結果**最有用的特徵。因為原始的特徵中可能會有冗餘和雜訊。

特徵選擇和降維有什麼區別呢？前者只踢掉原本特徵裡和結果**關係不大的，後者做特徵的計算組合構成新特徵。

- 方法：  評估單個特徵和結果值之間的相關程度，排序留下top相關的特徵部分。

- 評價方式：pearson相關係數，互資訊，距離相關度。

- 缺點：只評估了單個特徵對結果的影響，沒有考慮到特徵之間的關聯作用，可能把有用的關聯特徵誤踢掉。因此工業界使用比較少。

- python包：selectkbest指定過濾個數、selectpercentile指定過濾百分比。

- 方法：把特徵選擇看做乙個特徵子集搜尋問題，篩選各種特

徵子集，用模型評估效果。

- 典型演算法：「遞迴特徵刪除演算法」。

- 應用在邏輯回歸的過程：用全量特徵跑乙個模型；根據線性模型的係數(體現相關性)，刪掉5-10%的弱特徵，觀察準確率/auc的變化；逐步進行，直至準確率/auc出現大的下滑停止。

- python包：rfe

機器學習公開課-特徵處理與特徵選擇

4月機器學習演算法班-特徵工程

特徵處理與選擇例項分析

機器學習 特徵工程

機器學習 特徵工程

機器學習特徵工程

機器學習 特徵工程

相關推薦

機器學習特徵工程

機器學習特徵工程

機器學習特徵工程