資料歸一化方法

2021-07-30 09:44:28 字數 2572 閱讀 6580

本文主要介紹兩種基本的資料歸一化方法。

歸一化方法有兩種形式,一種是把數變為【0,1】之間的小數,一種是把有量綱表示式變為無量綱表示式。

資料標準化(歸一化)處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。

下面是歸一化和沒有歸一化的比較:

沒有經過歸一化,尋找最優解過程如下:

經過歸一化,把各個特徵的尺度控制在相同的範圍內: 

從經驗上說,歸一化是讓不同維度之間的特徵在數值上有一定比較性,可以大大提高分類器的準確性。

以下是兩種常用的歸一化方法:

也稱為離差標準化,是對原始資料的線性變換,使結果值對映到[0 - 1]之間。轉換函式如下: x

∗=x−

xmin

xmax

−xmi

n where,xm

in表示樣本資料的最小值,xm

ax表示

樣本資料

的最大值

。python**實現:

def

normalization

(x):

return [(float(i)-min(x))/float(max(x)-min(x)) for i in x]

測試:

x=[1,2,1,4,3,2,5,6,2,7]

b=normalization(x)

output:

[0.0, 0.16666666666666666, 0.0, 0.5, 0.3333333333333333, 0.16666666666666666, 0.6666666666666666, 0.8333333333333334, 0.16666666666666666, 1.0]
如果想要將資料對映到[-1,1],則將公式換成: x

∗=x−

xmea

nxma

x−xm

in

x_mean表示資料的均值

python**實現:

import numpy as np

defnormalization2

(x):

return [(float(i)-np.mean(x))/(max(x)-min(x)) for i in x]

測試:

x=[1,2,1,4,3,2,5,6,2,7]

b=normalization2(x)

output:

[-0.3833333333333333, -0.21666666666666665, -0.3833333333333333, 0.1166666666666667, -0.049999999999999968, -0.21666666666666665, 0.28333333333333338, 0.45000000000000001, -0.21666666666666665, 0.6166666666666667]
注意:上面的normalization是處理單個列表的。

這種方法給予原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1,轉化函式為: x

∗=x−

μσ

其中,μ

表示所有樣本資料的均值,

σ 表示所有樣本的標準差。

python**實現:

import numpy as np

defz_score

(x):

x_mean=np.mean(x)

s2=sum([(i-np.mean(x))*(i-np.mean(x)) for i in x])/len(x)

return [(i-x_mean)/s2 for i in x]

測試:

x=[1,2,1,4,3,2,5,6,2,7]

print z_score(x)

output:

[-0.57356608478802995, -0.32418952618453861, -0.57356608478802995, 0.17456359102244395, -0.074812967581047343, -0.32418952618453861, 0.42394014962593524, 0.67331670822942646, -0.32418952618453861, 0.92269326683291775]

資料歸一化方法

1 min max標準化 也叫做離差標準化,是一種對原始資料樣本的 線性變換處理,讓樣本從原本的值通過對映轉化為0 1之間的值。norsample sample min max min 其中,min為樣本中的最小值,max為樣本中的最大值。優點是 簡單易行,容易理解實現 缺點是 資料樣本不能頻繁的變...

資料歸一化的方法

資料特徵之間往往有著不同的分布區間,差異較大的情況下會很大程度的影響資料分析的結果。為了消除這種現象的影響需要對原始資料進行歸一化處理,使得各個指標處於同一數量級。1 max min歸一化 也叫離差標準化,是對原始資料的線性變換,使結果值對映到 0 1 之間。公式為 x x min max min ...

歸一化方法

1 min max標準化 2 z score標準化方法 定義 也稱為離差標準化,是對原始資料的線性變換,使得結果對映到0 1之間。本質 把數變為 0,1 之間的小數。轉換函式 x min max min 如果想要將資料對映到 1,1,則將公式換成 x mean max min 其中 max為樣本資料...