特徵工程的理解

2021-09-21 07:30:04 字數 1099 閱讀 6888

特徵工程:去除資料中的雜質和冗餘,提取更有效的的特徵。更刻畫求解問題與**模型之間的關係。

主要的物件是面向數值特徵。

將資料同一到大致的數值空間。

優化方法中,如果資料的取值範圍差距過大的化,演算法在優化過程中,需要迭代更多次才能夠找到最優解。(隨機梯度下降的例子)

梯隊下降求解的模型需要歸一化處理。(線性回歸,邏輯回歸,支援向量機,神經網路等模型)

但是對於一些決策樹模型並不適用。主要是計算資訊增益的方式和歸一化無關。

線性歸一化(min-max scaling):就是線性變換對映到【0,1】空間。

零均值歸一化(z-score normalization):將原始資料對映到均值為0,標準查為1的分布上。

線性歸一化:

零均值歸一化:

男女,a,b,c,d這種按照類別劃分。

當然是因為很多演算法沒辦法處理字串資訊,必須轉化為數值型別才能夠工作。

序號編碼。

大小關係編號。例如:高中低——>一二三(實際中需要根據具體的場景來設定轉化的值)

one-hot:編碼成稀疏向量的形式。

使用稀疏向量節省空間。

有時候特徵維度比較高,需要降維。(高維度特徵帶來的問題,k鄰近演算法高維度特徵很測量有效距離;邏輯回歸模型引數的數量會隨著維度增加而增加,容易過擬合;只有部分資料對**,分類有用,配合特徵選擇來降維。高維度特徵計算比較慢)

二進位制編碼

用二進位制對類別對映,獲得乙個0、1向量,維度相對one-hot更少一點。

將離散的特徵做組合,形成新特徵。

決策樹尋找特徵的方法。gbdt.

詞袋模型:

是什麼?

忽略單詞出現的順序,將整段文字以單詞為單位切分開,每篇文章可以表示為乙個向量,向量的每一維度表示乙個單詞,權重反應了這個詞在文章中的重要程度。

怎麼計算權重?(tf-idf)

詞語之間會有相關性,這種劃分方法並不是乙個好的方法。

n-gram方法:

將片語作為單獨的特徵放到向量表裡面。很多詞語會有相似的含義,有時候會放到

特徵工程(1) 特徵工程是什麼?

特徵是資料中抽取出來的對結果 有用的資訊,可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取 特徵構建 特徵選擇等模組。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型...

資料的特徵工程

1 匯入資料 2 刪除異常值 3 特徵構造 4 特徵篩選 過濾式 包裹式 嵌入式 stratidfiedkfold和kfold交叉驗證,都是將訓練集分成k份,其中k 1份的訓練集,1份的驗證集。不過特別的是stratifiedkfold將驗證集的正負樣本比例,保持和原始資料的正負樣本比例相同 在資料...

特徵工程 特徵交叉 交叉特徵 特徵組合

關於特徵交叉的作用以及原理,我這裡不進行詳細描述,因為大佬們已經說得很清楚了,這裡就附上幾個連線 特徵組合 特徵交叉 feature crosses 結合sklearn進行特徵工程 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 下面說怎樣製作和交叉特徵 多項式生成函式 sklearn.pr...