資料的歸一化處理和標準化處理

2021-08-30 11:09:46 字數 1013 閱讀 5444

#值的歸一化處理

1) 資料為什麼做歸一化處理

解析: 

假設乙個神經元有兩個輸入分別是x1和x2,權重分別是w1和w2,那麼該神經元的訊號加權求和為x1w1+x2w2。再假設x1屬於[0~1],x2屬於[100~1000],那麼x2遠遠大於x1,那麼x1w1就可以忽略不計,整個加權求和就只由x2w2來決定,小的訊號就被淹沒了!

所以需要將x1和x2都要做資料歸一化處理避免造成資料結果不準確

在演算法中如果各列資料值相差過大,必須要做歸一化處理(或標準化處理)

def autonorm(dataset):

minvals = dataset.min(0)#最大值

maxvals = dataset.max(0)#最小值

ranges = maxvals - minvals#差值

normdataset = zeros(shape(dataset))#生成乙個大小與dataset相同的緯度陣列,空的

m = dataset.shape[0]#dataset行數

#資料歸一化公式

#newvalue=(oldvalue-min)/(max-min)

normdataset = dataset - tile(minvals, (m,1))

normdataset = normdataset/tile(ranges, (m,1)) #element wise divide

return normdataset, ranges, minvals

2)資料標準化處理

from sklearn.preprocessing import standardscaler

# 標準化資料,保證每個維度的特徵資料方差為1,均值為0。使得**結果不會被某些維度過大的特徵值而主導。

ss = standardscaler()

x_train = ss.fit_transform(self.x_train)

x_test = ss.transform(self.x_test)

python資料標準化處理 資料標準化處理

正態分佈跟標準分數之間的關係 python版本 3.5 標準分數 標準分數 standard score,又稱z score z分數或標準化值 是將集合中的單個數與集合的均值相減的結果除以集合的標準差得到標準化的結果,該方法類似於正態分佈的標準化轉換,轉換函式為 式中x為需要被標準化的原始值,為均值...

資料的歸一化和標準化處理

我們為什麼要進行歸一化處理 當我們在採集樣本與使用樣本進行演算法 時,是否發現得到的模型存在過擬合或者欠擬合,這時我們要分析我們的資料是否需要預處理操作,我們通常使用下面兩種方法來解決 1.歸一化正是使用減少引數的重要性的方式,來增強模型的泛化能力,並且可以保證特徵數量保持不變。2.手動選擇保留哪些...

資料標準化處理

資料的標準化 normalization 也就是將資料按照比例縮放,使之落入特定區間內。因為不同的指標往往具有不同的量綱和單位,這樣的資料會影響分析結果,為了消除指標之間的這種影響,需要進行資料標準化處理,使個指標處於同一量級,讓指標有可比性。常用的歸一化有兩種方法 一 min max標準化 min...