資料處理歸一化標準化及其區別

把資料變成(０，１)之間的小數。主要是為了資料處理方便提出來的，把資料對映到0～1範圍之內處理，更加便捷快速。把有量綱表示式變成無量綱表示式，便於不同單位或量級的指標能夠進行比較和加權。歸一化是一種簡化計算的方式，即將有量綱的表示式，經過變換，化為無量綱的表示式，成為純量。

所謂「歸一」，注意「一」，就是把資料歸到（0，1）這個區間內。

常用的方法有： min-max歸一化

y =x

−min

max−

ny=

y=max−

minx

−min

其中，x為原資料，y為處理後的資料，min為資料最小值，max為資料最大值

# 匯入minmaxscaler
from sklearn.preprocessing import minmaxscaler
#使用minmaxscaler進行資料預處理
x_minmax=minmaxscaler(
).fit_transform(x)

在機器學習中，我們可能要處理不同種類的資料，例如，音訊和上的畫素值，這些資料可能是高維度的，資料標準化後會使每個特徵中的數值平均變為0(將每個特徵的值都減掉原始資料中該特徵的平均)、標準差變為1

所謂「標準」，就是標準正態分佈，把資料轉換成標準正態分佈。

常用的方法有：z-score標準化，即零-均值標準化

y =x

−μ

σy=

y=σx−μ

其中，x為原資料，y為處理後的資料，μ為平均，σ為標準差

# 匯入standardscaler
from sklearn.preprocessing import standardscaler
#使用standardscaler進行資料預處理
x_stand=standardscaler(
).fit_transform(x)

歸一化是為了消除不同資料之間的量綱，方便資料比較和共同處理，比如在神經網路中，歸一化可以加快訓練網路的收斂性；標準化是為了方便資料的下一步處理，而進行的資料縮放等變換，並不是為了方便與其他資料一同處理或比較，比如資料經過零-均值標準化後，更利於使用標準正態分佈的性質，進行處理

資料處理 歸一化 標準化及其區別