特徵工程的理解

特徵工程：去除資料中的雜質和冗餘，提取更有效的的特徵。更刻畫求解問題與**模型之間的關係。

主要的物件是面向數值特徵。

將資料同一到大致的數值空間。

優化方法中，如果資料的取值範圍差距過大的化，演算法在優化過程中，需要迭代更多次才能夠找到最優解。（隨機梯度下降的例子）

梯隊下降求解的模型需要歸一化處理。（線性回歸，邏輯回歸，支援向量機，神經網路等模型）

但是對於一些決策樹模型並不適用。主要是計算資訊增益的方式和歸一化無關。

線性歸一化（min-max scaling)：就是線性變換對映到【0，1】空間。

零均值歸一化（z-score normalization）：將原始資料對映到均值為0，標準查為1的分布上。

線性歸一化：

零均值歸一化：

男女，a，b，c，d這種按照類別劃分。

當然是因為很多演算法沒辦法處理字串資訊，必須轉化為數值型別才能夠工作。

序號編碼。

大小關係編號。例如：高中低——>一二三（實際中需要根據具體的場景來設定轉化的值）

one-hot：編碼成稀疏向量的形式。

使用稀疏向量節省空間。

有時候特徵維度比較高，需要降維。（高維度特徵帶來的問題，k鄰近演算法高維度特徵很測量有效距離；邏輯回歸模型引數的數量會隨著維度增加而增加，容易過擬合；只有部分資料對**，分類有用，配合特徵選擇來降維。高維度特徵計算比較慢）

二進位制編碼

用二進位制對類別對映，獲得乙個0、1向量，維度相對one-hot更少一點。

將離散的特徵做組合，形成新特徵。

決策樹尋找特徵的方法。gbdt.

詞袋模型：

是什麼？

忽略單詞出現的順序，將整段文字以單詞為單位切分開，每篇文章可以表示為乙個向量，向量的每一維度表示乙個單詞，權重反應了這個詞在文章中的重要程度。

怎麼計算權重？（tf-idf）

詞語之間會有相關性，這種劃分方法並不是乙個好的方法。

n-gram方法：

將片語作為單獨的特徵放到向量表裡面。很多詞語會有相似的含義，有時候會放到

特徵工程（1）特徵工程是什麼？

特徵是資料中抽取出來的對結果有用的資訊，可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料，使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取特徵構建特徵選擇等模組。特徵工程的目的是篩選出更好的特徵，獲取更好的訓練資料。因為好的特徵具有更強的靈活性，可以用簡單的模型...

資料的特徵工程

1 匯入資料 2 刪除異常值 3 特徵構造 4 特徵篩選過濾式包裹式嵌入式 stratidfiedkfold和kfold交叉驗證，都是將訓練集分成k份，其中k 1份的訓練集，1份的驗證集。不過特別的是stratifiedkfold將驗證集的正負樣本比例，保持和原始資料的正負樣本比例相同在資料...

特徵工程特徵交叉交叉特徵特徵組合

關於特徵交叉的作用以及原理，我這裡不進行詳細描述，因為大佬們已經說得很清楚了，這裡就附上幾個連線特徵組合特徵交叉 feature crosses 結合sklearn進行特徵工程對於特徵離散化，特徵交叉，連續特徵離散化非常經典的解釋下面說怎樣製作和交叉特徵多項式生成函式 sklearn.pr...

特徵工程的理解

特徵工程（1） 特徵工程是什麼？

資料的特徵工程

特徵工程 特徵交叉 交叉特徵 特徵組合

相關推薦

特徵工程（1）特徵工程是什麼？

特徵工程特徵交叉交叉特徵特徵組合