正則化與歸一化

2021-09-27 11:36:47 字數 1472 閱讀 2819

歸一化(normalization)

歸一化可以指把一組資料縮放到[0,1]的範圍內,或者自定義的某個範圍內。也可以指對一組資料縮放,使其的和為1。

其目的是通過把有量綱表示式變為無量綱表示式,有利於不同量綱資料之間的比較、展示等。

主要的歸一化演算法有:

1.線性轉換,即min-max歸一化(常用方法)

x'=(x-min)/(max-min)

2.平均歸一化

x' = (x - μ) / (maxvalue - minvalue)

3. 對數函式轉換

x'=log10(x)

4.反餘切函式轉換

x'=atan(x)*2/π

標準化(standardization)

資料的標準化是通過處理使資料變得較為穩定,沒有特別大或特別小的異常值。

主要方法:

1.z-score標準化,即零-均值標準化

x'=(x-μ)/σ

是統計處理的一種常用方法,基於正態分佈的假設,將原始資料變換為均值為0、標準差為1的符合標準正態分佈的資料。但即使資料不服從正態分佈,也可以用此法。特別適用於資料的最大值和最小值未知,或存在孤立點。

2.小數定標標準化(decimalscaling)

x'=x/10^j  (j確保max(|x'|)<1)

本質上就是移動x的小數字置進行標準化。

舉個例子:假定a的值由-436到214,a的最大絕對值為436,為使用小數定標標準化,我們用每個值除以1000(即,j=3),這樣,-436被標準化為-0.436。

3.對數logistic模式

x'=1/(1+e^(-x))

這種方法把資料移動到0~1區間。本質上是在保留了資料相對大小關係資訊的基礎上,對資料進行二分類。

正則化:要求乙個邏輯回歸問題,假設乙個函式,覆蓋所有可能:y=wx,其中w為引數向量,x為已知樣本的向量,用yi表示第i個樣本的真實值,用f(xi)表示樣本的**值,從而確定損失函式l(yi,f(xi))=yi−sigmoid(xi)。該損失函式代表一種誤差。對於該模型y=wx的所有樣本的損失平均值,我們稱為經驗損失(empirical loss)。

顯然,經驗損失(或稱經驗風險)最小化(empirical risk minimization)就是求解最優模型的原則。為了達到這個目的,模型的設定會越來越複雜,最後可能造成模型只適用於當前的樣本集,即出現過擬合(over fitting)問題。

為了解決過擬合問題,通常有兩種辦法,第一是減少樣本的特徵維度;第二就是正則化(又稱懲罰「penalty」)。正則化的一般形式是在整個平均損失函式後增加乙個正則項(常見l2範數正則化,也有其他形式的正則化,它們的作用也不同。詳見

λ=0代表不進行正則化;=1通常代表合適的懲罰;舉個例子=100的時候,會因為過度懲罰而造成「欠擬合」問題。

歸一化,標準化與正則化

歸一化 resaling 一般是將資料對映到指定的範圍,用於去除不同維度放入量綱以及量綱單位。常見的對映範圍有 0,1 和 1,1 最常見的歸一化方法就是min max 歸一化 最常見的標準化方法 z score 標準化。其中 是樣本均值,是樣本資料的標準差。上圖則是乙個散點序列的標準化過程 原圖 ...

正則化和歸一化

正則化,歸一化 標準化和正規化 對資料進行預處理的兩種方式,目的是讓資料更便於計算和獲得更加泛化的結果,但並不改變問題的本質。正則化 要求乙個邏輯回歸問題,假設乙個函式,覆蓋所有可能 y wx,其中w為引數向量,x為已知樣本的向量,用yi表示第i個樣本的真實值,用f xi 表示樣本的 值,從而確定損...

正則化和歸一化

正則化,歸一化 標準化和正規化 對資料進行預處理的兩種方式,目的是讓資料更便於計算和獲得更加泛化的結果,但並不改變問題的本質。正則化 要求乙個邏輯回歸問題,假設乙個函式,覆蓋所有可能 y wx,其中w為引數向量,x為已知樣本的向量,用yi表示第i個樣本的真實值,用f xi 表示樣本的 值,從而確定損...