資料預處理 特徵歸一化

2021-09-19 16:52:41 字數 522 閱讀 5567

對資料進行特徵歸一化(normalization)處理,可以使得資料的各個特徵處於同一數值量級,而不會導致模型學習出來的結果傾向於數值差別比較大的那些特徵。

線性函式歸一化(min-max scaling):對原始資料進行線性變換,是結果對映到[0,1]範圍,實現對原始資料的等比縮放。歸一化公式為:x_norm=(x-x_min)/(x_max-x_min)

零均值歸一化(z-score normalization):將原始資料對映到 均值為0、標準差為1的分布上。我們假設原始特徵的均值為μ、標準差為σ,則歸一化公式為:x_norm = (x-μ)/σ

通常在實際應用中,通過梯度下降求解的模型是需要歸一化的,包括線性回歸、邏輯回歸、支援向量機、神經網路模型等。然而並不適用於決策樹模型,因為決策樹在劃分子樹時依據的是資訊增益(或基尼係數等),而資訊增益與特徵是否經過歸一化是無關的,因為歸一化並不會改變樣本在特徵上的資訊增益。

reference:《百面機器學習》

資料預處理 歸一化

歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快 歸一化的三種方法 1 線性函式轉換 表示式如下 y x minvalue maxvalue minvalue 說明 x y分別為轉換前 後...

資料預處理 歸一化

由於進行分類器或模型的建立與訓練時,輸入的資料範圍可能比較大,同時樣本中各資料可能量綱不一致,這樣的資料容易對模型訓練或分類器的構建結果產生影響,因此需要對其進行歸一化處理。那就是將該樣本 樣本集中第i行資料 歸一到範圍 0,1 之間。一種簡單而快速的標準歸一化處理演算法是線性轉換演算法,最為常見的...

資料預處理 歸一化

1 公式 x numpy array格式的資料 n samples,n features n samples 樣本數 n features 特徵數 列 返回值 形狀相同的array 3 缺點 由於歸一化使用最大值最小值進行計算,若最大值 最小值缺失或錯誤,歸一化結果的準確性就會大大降低,為此可採用標...