資料預處理特徵歸一化

2021-09-19 16:52:41 字數 522 閱讀 5567

對資料進行特徵歸一化（normalization）處理，可以使得資料的各個特徵處於同一數值量級，而不會導致模型學習出來的結果傾向於數值差別比較大的那些特徵。

線性函式歸一化（min-max scaling）：對原始資料進行線性變換，是結果對映到[0,1]範圍，實現對原始資料的等比縮放。歸一化公式為：x_norm=(x-x_min)/(x_max-x_min)

零均值歸一化（z-score normalization）：將原始資料對映到均值為0、標準差為1的分布上。我們假設原始特徵的均值為μ、標準差為σ，則歸一化公式為：x_norm = (x-μ)/σ

通常在實際應用中，通過梯度下降求解的模型是需要歸一化的，包括線性回歸、邏輯回歸、支援向量機、神經網路模型等。然而並不適用於決策樹模型，因為決策樹在劃分子樹時依據的是資訊增益（或基尼係數等），而資訊增益與特徵是否經過歸一化是無關的，因為歸一化並不會改變樣本在特徵上的資訊增益。

reference：《百面機器學習》

資料預處理歸一化

歸一化是一種資料預處理方法，就是要把你需要處理的資料經過處理後通過某種演算法限制在你需要的一定範圍內，為了後面資料處理的方便，其次是保正程式執行時收斂加快歸一化的三種方法 1 線性函式轉換表示式如下 y x minvalue maxvalue minvalue 說明 x y分別為轉換前後...

資料預處理歸一化

由於進行分類器或模型的建立與訓練時，輸入的資料範圍可能比較大，同時樣本中各資料可能量綱不一致，這樣的資料容易對模型訓練或分類器的構建結果產生影響，因此需要對其進行歸一化處理。那就是將該樣本樣本集中第i行資料歸一到範圍 0,1 之間。一種簡單而快速的標準歸一化處理演算法是線性轉換演算法，最為常見的...

資料預處理歸一化

1 公式 x numpy array格式的資料 n samples,n features n samples 樣本數 n features 特徵數列返回值形狀相同的array 3 缺點由於歸一化使用最大值最小值進行計算，若最大值最小值缺失或錯誤，歸一化結果的準確性就會大大降低，為此可採用標...