為什麼要進行資料標準化？

在現實生活中，乙個目標變數（y）可以認為是由多個特徵變數（x）影響和控制的，那麼這些特徵變數的量綱和數值的量級就會不一樣，比如x1 = 10000，x2 = 1，x3 = 0.5 可以很明顯的看出特徵x1和x2、x3存在量綱的差距；x1對目標變數的影響程度將會比x2、x3對目標變數的影響程度要大（可以這樣認為目標變數由x1掌控，x2，x3影響較小，一旦x1的值出現問題，將直接的影響到目標變數的**，把目標變數的**值由x1獨攬大權，會存在高風險的**）而通過標準化處理，可以使得不同的特徵變數具有相同的尺度（也就是說將特徵的值控制在某個範圍內），這樣目標變數就可以由多個相同尺寸的特徵變數進行控制，這樣，在使用梯度下降法學習引數的時候，不同特徵對引數的影響程度就一樣了。比如在訓練神經網路的過程中，通過將資料標準化，能夠加速權重引數的收斂。

簡而言之：對資料標準化的目的是消除特徵之間的差異性，便於特徵一心一意學習權重。

由（1）我們可以知道當原始資料不同維度上的特徵的尺度（單位）不一致時，需要標準化步驟對資料進行預處理，反之則不需要進行資料標準化。