資料預處理 中心化和標準化

2021-10-02 03:52:23 字數 1388 閱讀 4783

中心化:所有資料之和為0

標準化:把資料的分布轉化為正態分佈

最後資料集變成均值為0,方差為1的分布。

計算過程如下:

處理前後的資料分布對比:

當我們處理乙個問題的時候需要用到各種各樣的資料,然而他們的量級時常是不一樣的,比如說在房價分析的時候,我們會有面積、地域、地價等等等等,面積這些都是幾十幾百,而地價這些都是百萬級別的,如果不加處理的放在一起處理,那面積這個標準就沒有任何作用了。

所以這個時候我們就需要用標準化處理這一手段

我們可以呼叫sklearn.perprocessing包裡的scale來處理

from sklearn import preprocessing

import numpy as np

x = np.array([[

1000.,

-1.,

2.,1

.,2.

,-1.

],[2

.,0.

,0.,

1.,3

.,-2

],[0

.,1.

,-1.

,2.,

0.,-

40.]]

)x_scale = preprocessing.scale(x)

得到的新的資料是

[[ 1.41421144, -1.22474487, 1.33630621, -0.70710678, 0.26726124, 0.7344706 ],[-0.70498228, 0., -0.26726124, -0.70710678, 1.06904497, 0.67938531],[-0.70922916, 1.22474487, -1.06904497, 1.41421356, -1.33630621, -1.41385591]])

明顯是乙個在正態分佈裡的排列

我們把它掛出來

原本的1000,-400這種奇奇怪怪的資料頁沒有體現出來,說明這個分布確實合理了(但是這個地方我不知道會不會丟失掉突出資料的資料,很難說)

資料預處理 中心化和標準化

一 中心化 又叫零均值化 和標準化 又叫歸一化 概念及目的?1 在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始資料進行中心化 zero centered或者mean subtraction subtraction表示減去 處理和標準化 standardization或no...

資料預處理 資料標準化

x train np.array 1,1,2 2,0,0 0,1,1 min max scaler preprocessing.minmaxscaler x train minmax min max scaler.fit transform x train print x train minmax ...

中心化和標準化

x x x 原因 在一些實際問題中,我們得到的樣本資料都是多個維度的,即乙個樣本是用多個特徵來表徵的。很顯然,這些特徵的量綱和數值得量級都是不一樣的,而通過標準化處理,可以使得不同的特徵具有相同的尺度 scale 這樣,在學習引數的時候,不同特徵對引數的影響程度就一樣了。簡言之,當原始資料不同維度上...