正則化與歸一化

歸一化（normalization）

歸一化可以指把一組資料縮放到[0,1]的範圍內，或者自定義的某個範圍內。也可以指對一組資料縮放，使其的和為1。

其目的是通過把有量綱表示式變為無量綱表示式，有利於不同量綱資料之間的比較、展示等。

主要的歸一化演算法有：

1.線性轉換，即min-max歸一化（常用方法）

x'=(x-min)/(max-min)

2.平均歸一化

x' = (x - μ) / (maxvalue - minvalue)

3. 對數函式轉換

x'=log10(x)

4.反餘切函式轉換

x'=atan(x)*2/π

標準化（standardization）

資料的標準化是通過處理使資料變得較為穩定，沒有特別大或特別小的異常值。

主要方法：

1.z-score標準化，即零-均值標準化

x'=(x-μ)/σ

是統計處理的一種常用方法，基於正態分佈的假設，將原始資料變換為均值為0、標準差為1的符合標準正態分佈的資料。但即使資料不服從正態分佈，也可以用此法。特別適用於資料的最大值和最小值未知，或存在孤立點。

2.小數定標標準化（decimalscaling）

x'=x/10^j （j確保max(|x'|)<1）

本質上就是移動x的小數字置進行標準化。

舉個例子：假定a的值由-436到214，a的最大絕對值為436，為使用小數定標標準化，我們用每個值除以1000（即，j=3），這樣，-436被標準化為-0.436。

3.對數logistic模式

x'=1/(1+e^(-x))

這種方法把資料移動到0~1區間。本質上是在保留了資料相對大小關係資訊的基礎上，對資料進行二分類。

正則化：要求乙個邏輯回歸問題，假設乙個函式，覆蓋所有可能：y=wx，其中w為引數向量，x為已知樣本的向量，用yi表示第i個樣本的真實值，用f(xi)表示樣本的**值，從而確定損失函式l(yi,f(xi))=yi−sigmoid(xi)。該損失函式代表一種誤差。對於該模型y=wx的所有樣本的損失平均值，我們稱為經驗損失（empirical loss）。

顯然，經驗損失（或稱經驗風險）最小化（empirical risk minimization）就是求解最優模型的原則。為了達到這個目的，模型的設定會越來越複雜，最後可能造成模型只適用於當前的樣本集，即出現過擬合（over fitting）問題。

為了解決過擬合問題，通常有兩種辦法，第一是減少樣本的特徵維度；第二就是正則化（又稱懲罰「penalty」）。正則化的一般形式是在整個平均損失函式後增加乙個正則項（常見l2範數正則化，也有其他形式的正則化，它們的作用也不同。詳見

λ=0代表不進行正則化；=1通常代表合適的懲罰；舉個例子=100的時候，會因為過度懲罰而造成「欠擬合」問題。

正則化與歸一化

歸一化，標準化與正則化

正則化和歸一化

正則化和歸一化

正則化與歸一化

歸一化，標準化與正則化

正則化和歸一化

正則化和歸一化

相關推薦