特徵工程常用的特徵轉換方法總結

機器學習模型的生命週期可以分為以下步驟：

要構建模型就必須要對資料進行預處理。特徵轉換是這個過程中最重要的任務之一。在資料集中，大多數時候都會有不同大小的資料。為了使更好的**，必須將不同的特徵縮小到相同的幅度範圍或某些特定的資料分布。

什麼時候需要特徵轉換

什麼時候不需要特徵轉換

大多數基於樹型模型的整合方法不需要特徵縮放，因為即使我們進行特徵轉換，對於熵的計算也不會發生太大變化。所以在這樣的演算法中，除非特別需要，一般情況下不需要縮放。

特徵轉換的方法

特徵轉換的方法有很多種，本文中將總結一些有用和流行的方法。

當輸入資料集的特徵在範圍之間有很大差異或以不同的測量單位（如高度、重量、公尺、英里等）進行測量時，應使用標準化。我們將所有變數或特徵帶到相似的規模。其中均值為 0，標準差為 1。

在標準化中，我們用平均值減去特徵值，然後除以標準差，得到完全標準的正態分佈。

簡單來說，最小最大縮放將特徵值縮小到 0 到 1 的範圍。或者我們也可以指定縮放的範圍。

對於normalization（歸一化）：會將特徵值減去其最小值，然後除以特徵範圍（特徵範圍=特徵最大值-特徵最小值）。

如果資料集有太多異常值，則標準化和歸一化都很難處理，在這種情況下，可以使用 robust scaler 進行特徵縮放。

從名字就可以看出 robust scaler 對異常值很健壯

特徵工程方法

常用方法總結其中過濾法幾大檢驗的區別假設x為解釋變數，y為被解釋變數，我們想確定x的取值對y是否有影響 1 x,y都為分類變數，比如學歷和購買之間的關係，卡方檢驗互資訊比較合適 2 x為連續變數，y為分類變數，比如身高和購買之間的關係，f檢驗比較合適 3 x,y都為連續變數，相關係數即可互資...

pyspark特徵工程常用方法（一）

本文記錄特徵工程中常用的五種方法 minmaxscaler，normalization，onehotencoding，pca以及quantilediscretizer 用於分箱原有資料集如下圖首先將c2列轉換為vector的形式 vecassembler vectorassembler inpu...

工程中常用的特徵選擇方法

當資料預處理完成後，我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。為什麼？1 降低維度，選擇重要的特徵，避免維度災難，降低計算成本 2 去除不相關的冗餘特徵雜訊來降低學習的難度，去除雜訊的干擾，留下關鍵因素，提高精度 3 獲得更多有物理意義的，有價值的特徵不同模型有不同的特徵適...

特徵工程 常用的特徵轉換方法總結

特徵工程方法

pyspark特徵工程常用方法（一）

工程中常用的特徵選擇方法

相關推薦

特徵工程常用的特徵轉換方法總結