機器學習正則化

設p

⩾1的實

數，p−

norm

定義為：

||x||:=(

∑i=1

n|xi

|p)1

p(1.1)

![這裡寫描述](

如果方陣a是非奇異的，那麼a的conditio nnumber定義為：

κ(a)=||

a|||

|a−1

||condition number是乙個矩陣穩定性或者敏感度的度量。

矩陣的condition number在1附近，那麼它就是well-conditioned的；

如果遠大於1，那麼它就是ill-conditioned的。

如果乙個系統是ill-conditioned的它的輸出結果就不太可信。

機器學習目標函式的一般形式： lo

ss(x

,y)=

erro

r(x,

y)+α

||w|

| la

sso:

minw

1n||

y−xw

||2,

s.t.

||w|

|1≤c

ridge:m

inw1

n||y

−xw|

|2,s

.t.|

|w||

2≤c

為了便於視覺化，我們考慮兩維的情況，在(w1, w2)平面上可以畫出目標函式的等高線，而約束條件則成為平面上半徑為c的乙個 norm ball 。等高線與 norm ball 首次相交的地方就是最優解。

可以看到，l1-ball 與l2-ball 的不同就在於l1在和每個座標軸相交的地方都有「角」出現，而目標函式的測地線除非位置擺得非常好，大部分時候都會在角的地方相交。注意到在角的位置就會產生稀疏性，例如圖中的相交點就有w1=0，而更高維的時候（想象一下三維的l1-ball 是什麼樣的？）除了角點以外，還有很多邊的輪廓也是既有很大的概率成為第一次相交的地方，又會產生稀疏性。

相比之下，l2-ball 就沒有這樣的性質，因為沒有角，所以第一次相交的地方出現在具有稀疏性的位置的概率就變得非常小了。這就從直觀上來解釋了為什麼l1-regularization 能產生稀疏性，而l2-regularization 不行的原因了。

l1會趨向於產生少量的特徵，而其他的特徵都是0，常用於特徵選擇

而l2會選擇更多的特徵，這些特徵都會向0的方向收縮，l2正則可防止過擬合。

對於

邏輯回歸

，不進行

正則化，

損失函式

及θ迭代

公式為： j(

θ)=−

1m(∑

i=1m

(y(i

)log

(hθ(

x(i)

))+(

1−y(

i))l

og(1

−hθ(

x(i)

)))

θj:=θ

j+αm

∑i=1

m(y(

i)−h

θ(x(

i))x

(i)j

矩陣表達為： w^

=(xt

x)−1

xty

對於邏輯

回歸，l

2正則化

之後，損

失函式及

θ迭代公

式為： j(θ

)=−1

m(∑i

=1m(

y(i)

log(

hθ(x

(i))

)+(1

−y(i

))lo

g(1−

hθ(x

(i))

))+λ

2m∑j

=1nθ

2 θj

:=θj+

αm(∑

i=1m

(y(i

)−hθ

(x(i

))x(

i)j)

−αλm

θj(j

=1,.

..,n

) 其矩陣形式為： w⋆

=(xt

x+λi

)−1x

ty改善了condition number，從而可以直接求逆。

注：

下角標指

示列索引

，上角標

指示行索

引；m為

行數即個

體數目，

n為列數

目即引數

θ個數。

機器學習正則化

機器學習 正則化

機器學習正則化

機器學習正則化

相關推薦

機器學習正則化