關於資料標準化，歸一化，正則化

一、標準化（z-score），或者去除均值和方差縮放

公式為：(x-mean)/std 計算時對每個屬性/每列分別進行。

將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。

實現時，有兩種不同的方式：

使用sklearn.preprocessing.scale()函式，可以直接將給定資料進行標準化。

from sklearn import preprocessing

import numpy as np

x = np.array([[ 1., -1., 2.],

… [ 2., 0., 0.],

… [ 0., 1., -1.]])

x_scaled = preprocessing.scale(x)

x_scaled

array([[ 0. …, -1.22…, 1.33…],

[ 1.22…, 0. …, -0.26…],

[-1.22…, 1.22…, -1.06…]])

x_scaled.mean(axis=0)

array([ 0., 0., 0.])

x_scaled.std(axis=0)

array([ 1., 1., 1.])

使用sklearn.preprocessing.standardscaler類，使用該類的好處在於可以儲存訓練集中的引數（均值、方差）直接使用其物件轉換測試集資料。

scaler = preprocessing.standardscaler().fit(x)

scaler

standardscaler(copy=true, with_mean=true, with_std=true)

scaler.mean_

array([ 1. …, 0. …, 0.33…])

scaler.std_

array([ 0.81…, 0.81…, 1.24…])

scaler.transform(x)

array([[ 0. …, -1.22…, 1.33…],

[ 1.22…, 0. …, -0.26…],

[-1.22…, 1.22…, -1.06…]])

scaler.transform([[-1., 1., 0.]])

array([[-2.44…, 1.22…, -0.26…]])

二、將屬性縮放到乙個指定範圍

除了上述介紹的方法之外，另一種常用的方法是將屬性縮放到乙個指定的最大和最小值（通常是1-0）之間，這可以通過preprocessing.minmaxscaler類實現。

使用這種方法的目的包括：

1、對於方差非常小的屬性可以增強其穩定性。

2、維持稀疏矩陣中為0的條目。

x_train = np.array([[ 1., -1., 2.],

… [ 2., 0., 0.],

… [ 0., 1., -1.]])

… min_max_scaler = preprocessing.minmaxscaler()

x_train_minmax = min_max_scaler.fit_transform(x_train)

x_train_minmax

array([[ 0.5 , 0. , 1. ],

[ 1. , 0.5 , 0.33333333],

[ 0. , 1. , 0. ]])

x_test = np.array([[ -3., -1., 4.]])

x_test_minmax = min_max_scaler.transform(x_test)

x_test_minmax

array([[-1.5 , 0. , 1.66666667]])

min_max_scaler.scale_

array([ 0.5 , 0.5 , 0.33…])

min_max_scaler.min_

array([ 0. , 0.5 , 0.33…])

當然，在構造類物件的時候也可以直接指定最大最小值的範圍：feature_range=(min, max)，此時應用的公式變為：

x_std=(x-x.min(axis=0))/(x.max(axis=0)-x.min(axis=0))

x_scaled=x_std/(max-min)+min

三、正則化（normalization）

正則化的過程是將每個樣本縮放到單位範數（每個樣本的範數為1），如果後面要使用如二次型（點積）或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。

normalization主要思想是對每個樣本計算其p-範數，然後對該樣本中每個元素除以該範數，這樣處理的結果是使得每個處理後樣本的p-範數（l1-norm,l2-norm）等於1。

p-範數的計算公式：||x||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p

該方法主要應用於文字分類和聚類中。例如，對於兩個tf-idf向量的l2-norm進行點積，就可以得到這兩個向量的余弦相似性。

1、可以使用preprocessing.normalize()函式對指定資料進行轉換：

x = [[ 1., -1., 2.],

… [ 2., 0., 0.],

… [ 0., 1., -1.]]

x_normalized = preprocessing.normalize(x, norm=』l2』)

x_normalized

array([[ 0.40…, -0.40…, 0.81…],

[ 1. …, 0. …, 0. …],

[ 0. …, 0.70…, -0.70…]])

2、可以使用processing.normalizer()類實現對訓練集和測試集的擬合和轉換：

normalizer = preprocessing.normalizer().fit(x) # fit does nothing

normalizer

normalizer(copy=true, norm=』l2』)

normalizer.transform(x)

array([[ 0.40…, -0.40…, 0.81…],

[ 1. …, 0. …, 0. …],

[ 0. …, 0.70…, -0.70…]])

normalizer.transform([[-1., 1., 0.]])

array([[-0.70…, 0.70…, 0. …]])

歸一化標準化正則化

無量綱化使不同規格的資料轉換到同一規格。常用的無量綱化方法有標準化和區間縮放法。標準化的前提是特徵值服從正態分佈，標準化後，其轉換成標準正態分佈區間縮放法利用了邊界值資訊，將特徵的取值區間縮放到某個特點的範圍，例如 0,1 等。標準化的前提是特徵值服從正態分佈，標準化後，其轉換成標準正態分佈 z ...

標準化歸一化正則化

x x x min x max x min 歸一化後的資料取值區間為 0,1 from sklearn.preprocessing import minmaxscaler import numpy as np data np.random.uniform 0,100,10 np.newaxis 隨機...

歸一化標準化正則化

我們經常將歸一化和標準化弄混淆，下面簡單描述一下他們之間的差異歸一化的目標是找到某種對映關係，將原資料對映到 a,b a,b 區間上。一般a,b a,b會取 1 1 0,1 1,1 0,1 這些組合 a b 一般有兩種應用場景常用min max normalization 用大數定理將資料轉化為...

關於資料標準化，歸一化，正則化

歸一化 標準化 正則化

標準化 歸一化 正則化

歸一化 標準化 正則化

相關推薦

歸一化標準化正則化

標準化歸一化正則化

歸一化標準化正則化