機器學習資料歸一化方法

本文主要介紹兩種基本的資料歸一化方法。

歸一化方法有兩種形式，一種是把數變為【0，1】之間的小數，一種是把有量綱表示式變為無量綱表示式。

資料標準化（歸一化）處理是資料探勘的一項基礎工作，不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到資料分析的結果，為了消除指標之間的量綱影響，需要進行資料標準化處理，以解決資料指標之間的可比性。原始資料經過資料標準化處理後，各指標處於同一數量級，適合進行綜合對比評價。

下面是歸一化和沒有歸一化的比較：

沒有經過歸一化，尋找最優解過程如下：

經過歸一化，把各個特徵的尺度控制在相同的範圍內：

從經驗上說，歸一化是讓不同維度之間的特徵在數值上有一定比較性，可以大大提高分類器的準確性。

以下是兩種常用的歸一化方法：

也稱為離差標準化，是對原始資料的線性變換，使結果值對映到[0 - 1]之間。轉換函式如下：x∗

=x−x

minx

max−

xmin

where，xm

in表示樣本資料的最小值，xm

ax表示

樣本資料

的最大值

。python**實現：

def
normalization
(x):
return [(float(i)-min(x))/float(max(x)-min(x)) for i in x]

測試：

x=[1,2,1,4,3,2,5,6,2,7]
b=normalization(x)

output：

[0.0, 0.16666666666666666, 0.0, 0.5, 0.3333333333333333, 0.16666666666666666, 0.6666666666666666, 0.8333333333333334, 0.16666666666666666, 1.0]

如果想要將資料對映到[-1,1]，則將公式換成：x∗

=x−x

mean

xmax

−xmi

n x_mean表示資料的均值

python**實現：

import numpy as np
defnormalization2
(x):
return [(float(i)-np.mean(x))/(max(x)-min(x)) for i in x]

測試：

x=[1,2,1,4,3,2,5,6,2,7]
b=normalization2(x)

output：

[-0.3833333333333333, -0.21666666666666665, -0.3833333333333333, 0.1166666666666667, -0.049999999999999968, -0.21666666666666665, 0.28333333333333338, 0.45000000000000001, -0.21666666666666665, 0.6166666666666667]

注意：上面的normalization是處理單個列表的。

這種方法給予原始資料的均值（mean）和標準差（standard deviation）進行資料的標準化。經過處理的資料符合標準正態分佈，即均值為0，標準差為1，轉化函式為：x∗

=x−μ

σ 其中，μ

表示所有樣本資料的均值，

σ 表示所有樣本的標準差。

python**實現：

import numpy as np
defz_score
(x):
x_mean=np.mean(x)
s2=sum([(i-np.mean(x))*(i-np.mean(x)) for i in x])/len(x)
return [(i-x_mean)/s2 for i in x]

測試：

x=[1,2,1,4,3,2,5,6,2,7]
print z_score(x)

output:

[-0.57356608478802995, -0.32418952618453861, -0.57356608478802995, 0.17456359102244395, -0.074812967581047343, -0.32418952618453861, 0.42394014962593524, 0.67331670822942646, -0.32418952618453861, 0.92269326683291775]

此文乃博主即興之作，如果你從中有所收穫，歡迎前來贊助，為博主送上你的支援：【贊助中心】

機器學習資料歸一化方法

原文本文主要介紹兩種基本的資料歸一化方法。歸一化方法有兩種形式，一種是把數變為 0，1 之間的小數，一種是把有量綱表示式變為無量綱表示式。資料標準化歸一化處理是資料探勘的一項基礎工作，不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到資料分析的結果，為了消除指標之間的量綱影響，需要進...

機器學習的資料歸一化方法

作用對於不同的特徵向量，比如年齡購買量購買額，在數值的量綱上相差十倍或者百千倍。如果不歸一化處理，就不容易進行比較求距離，模型引數和正確度精確度就會受影響，甚至得不出正確的結果。舉個例子用梯度下降法求解最優解時，下圖展示沒有歸一化和歸一化處理兩種情況下的求解過程。左圖表示沒有歸一化的求解過...

機器學習資料歸一化

機器學習中，在資料預處理過程中，通過將資料歸一化可以加快梯度下降求最優解的速度，也有可能提高模型計算的精度。常用的歸一化方法主要有兩種最值歸一化。比如把最大值歸一化成1，最小值歸一化成 1 或把最大值歸一化成1，最小值歸一化成0。適用於本來就分布在有限範圍內的資料。其中常用的方法有線性比例變換法...

機器學習 資料歸一化方法

機器學習 資料歸一化方法

機器學習的資料歸一化方法

機器學習 資料歸一化

相關推薦

機器學習資料歸一化方法

機器學習資料歸一化方法

機器學習資料歸一化