資料處理 歸一化 標準化及其區別

2021-09-16 19:49:40 字數 1173 閱讀 1586

把資料變成(0,1)之間的小數。主要是為了資料處理方便提出來的,把資料對映到0~1範圍之內處理,更加便捷快速。把有量綱表示式變成無量綱表示式,便於不同單位或量級的指標能夠進行比較和加權。歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。

所謂「歸一」,注意「一」,就是把資料歸到(0,1)這個區間內。

常用的方法有: min-max歸一化

y =x

−min

max−

mi

ny=

y=max−

minx

−min

其中,x為原資料,y為處理後的資料,min為資料最小值,max為資料最大值

# 匯入minmaxscaler

from sklearn.preprocessing import minmaxscaler

#使用minmaxscaler進行資料預處理

x_minmax=minmaxscaler(

).fit_transform(x)

在機器學習中,我們可能要處理不同種類的資料,例如,音訊和上的畫素值,這些資料可能是高維度的,資料標準化後會使每個特徵中的數值平均變為0(將每個特徵的值都減掉原始資料中該特徵的平均)、標準差變為1

所謂「標準」,就是標準正態分佈,把資料轉換成標準正態分佈。

常用的方法有:z-score標準化,即零-均值標準化

y =x

−μ

σy=

y=σx−μ

其中,x為原資料,y為處理後的資料,μ為平均,σ為標準差

# 匯入standardscaler

from sklearn.preprocessing import standardscaler

#使用standardscaler進行資料預處理

x_stand=standardscaler(

).fit_transform(x)

歸一化是為了消除不同資料之間的量綱,方便資料比較和共同處理,比如在神經網路中,歸一化可以加快訓練網路的收斂性;標準化是為了方便資料的下一步處理,而進行的資料縮放等變換,並不是為了方便與其他資料一同處理或比較,比如資料經過零-均值標準化後,更利於使用標準正態分佈的性質,進行處理

資料處理之標準化 歸一化方法

主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速,應該歸到數字訊號處理範疇之內。歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。比如,複數阻抗可以歸一化書寫 z r j l r 1 j l r 複數部分變成了純數量了,沒有量綱。另外...

資料標準化(歸一化)

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...

資料標準化 歸一化

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...