大資料 特徵工程

2021-08-31 03:59:18 字數 869 閱讀 1089

1、單變數特徵篩選

計算每乙個特徵與響應變數的相關性:工程上常用的手段有計算皮爾遜係數和互資訊係數,皮爾遜係數只能衡量線性相關性而互資訊係數能夠很好地度量各種相關性,但是計算相對複雜一些,好在很多toolkit裡邊都包含了這個工具(如sklearn的mine),得到相關性之後就可以排序選擇特徵了;

2、單特徵模型篩選

構建單個特徵的模型,通過模型的準確性為特徵排序,藉此來選擇特徵,另外,記得jmlr』03上有一篇**介紹了一種基於決策樹的特徵選擇方法,本質上是等價的。當選擇到了目標特徵之後,再用來訓練最終的模型;

3、l1,l2正則篩選

通過l1正則項來選擇特徵:l1正則方法具有稀疏解的特性,因此天然具備特徵選擇的特性,但是要注意,l1沒有選到的特徵不代表不重要,原因是兩個具有高相關性的特徵可能只保留了乙個,如果要確定哪個特徵重要應再通過l2正則方法交叉檢驗;

4、基於模型係數篩選

訓練能夠對特徵打分的預選模型:randomforest和logistic regression等都能對模型的特徵打分,通過打分獲得相關性後再訓練最終模型;我在上篇實戰中用到了xgboost,根據權重篩選特徵;

5、特徵組合

通過特徵組合後再來選擇特徵:如對使用者id和使用者特徵最組合來獲得較大的特徵集再來選擇特徵,這種做法在推薦系統和廣告系統中比較常見,這也是所謂億級甚至十億級特徵的主要**,原因是使用者資料比較稀疏,組合特徵能夠同時兼顧全域性模型和個性化模型;

6、基於深度學習

通過深度學習來進行特徵選擇:目前這種手段正在隨著深度學習的流行而成為一種手段,尤其是在計算機視覺領域,原因是深度學習具有自動學習特徵的能力,這也是深度學習又叫unsupervised feature learning的原因。從深度學習模型中選擇某一神經層的特徵後就可以用來進行最終目標模型的訓練了;

大資料特徵

大資料特徵可歸納為 5v 3i 7 8 即 海 量資料規模 volume 高速資料流動 velocity 靈活資料體系 vitality 豐富資料型別 variety 潛在資料價值 value 資源成本投資 investments 技術理論與應用方案創新 innovation 自由開放的資料邏輯。較...

特徵工程 清洗資料

我們在進行機器學習的時候,採用的資料樣本往往是向量 特徵向量 而我們的原始資料並不是以向量的形式呈現給我們的,這是便需要將資料對映到特徵 直接對映便ok 雖然機器學習是根據浮點值進行的訓練,但是不需要將整數6轉換為6.0,這個過程是預設的 好多時候,有的特徵是字串,比如此前訓練的加利福尼亞房產資料集...

資料的特徵工程

1 匯入資料 2 刪除異常值 3 特徵構造 4 特徵篩選 過濾式 包裹式 嵌入式 stratidfiedkfold和kfold交叉驗證,都是將訓練集分成k份,其中k 1份的訓練集,1份的驗證集。不過特別的是stratifiedkfold將驗證集的正負樣本比例,保持和原始資料的正負樣本比例相同 在資料...