L0，L1，L2正則，lasso，嶺回歸

我們要討論的第乙個規範是l0規範。根據定義，x的l0範數是

嚴格來說，l0範數實際上不是乙個範數。它是基數函式，其定義形式為l0-norm，儘管許多人稱其為範數。使用它有點棘手，因為其中存在零次冪和零次方。顯然，任何x> 0都將變為1，但是零次冪（尤其是零次冪）的定義問題使這裡變得混亂。因此，實際上，大多數數學家和工程師都使用l0-範數的此定義：

那就是向量中非零元素的總數。

例如，向量（0,0）和（0,2）的l0範數為1，因為只有乙個非零元素。

l0範數的乙個很好的實用示例是當具有兩個向量（使用者名稱和密碼）時給出nishant shukla的示例。如果向量的l0範數等於0，則登入成功。否則，如果l0範數為1，則意味著使用者名稱或密碼不正確，但都不正確。最後，如果l0規範為2，則意味著使用者名稱和密碼都不正確。

l1範數是空間中向量的大小之和。這是測量向量之間距離的最自然的方法，即向量分量的絕對差之和。在此規範中，向量的所有分量均被加權。

根據範數的定義，x的l1-範數定義為

如果為兩個向量或矩陣之間的差計算l1範數，則即

在計算機視覺科學家中，它被稱為絕對差總和（sad）。

在訊號差測量的更一般情況下，可以通過以下方法將其縮放為單位向量：

例如，向量x = [3,4]，l1範數的計算公式為：

是最流行的規範，也稱為歐幾里得規範。這是從乙個點到另乙個點的最短距離。同樣的例子，l2 的演算法如下：

另外我們可以將l1範數實現正則化的線性回歸模型稱為lasso回歸，將l2範數實現（平方）以正則化的線性回歸模型稱為嶺回歸。

l1和l2正則化都可以通過對係數進行縮小（施加懲罰）來防止過度擬合。 l2（ridge）將所有係數按相同的比例縮小，但沒有消除，而l1（lasso）可以將某些係數縮小到零，執行變數選擇。

lasso回歸是一種使用收縮的線性回歸。收縮是資料值向中心點（如均值）收縮的地方。lasso是稀疏的模型（即引數較少的模型）。這種特殊型別的回歸非常適合顯示高水平線性線性關係的模型。

首字母縮寫詞「 lasso」代表最小絕對收縮和選擇算符。

回想lasso最小化問題可以表示為：

可以看成是兩個項的最小值：???+?1

第乙個ols項可以表示為（?−??）?（?−??），這會產生乙個以最大似然估計器為中心的橢圓等高線圖。

第二個?1項是以0為中心的菱形方程（或較大尺寸的菱形）

約束優化的解位於兩個函式的輪廓之間的交點，並且該交點隨of的函式而變化。對於? = 0，解為mle，對於? =∞，解為[ 0,0]

由於在菱形的頂點處，乙個或多個變數的值為0，因此乙個或多個係數的值恰好等於0的可能性不為零。

如下圖所示：

嶺回歸通過使用l2範數減少了係數的大小，從而減少了模型中的高複雜度。它極大地幫助我們過度擬合和處理離群值。同樣考慮到l2範數的性質，它是穩定的，並給出了唯一的全域性最小值。

這是減少過度擬合的正則化方法。

我們嘗試使用一條過度擬合訓練資料的趨勢線，因此，其方差比ols高得多。嶺回歸的主要思想是要增加一條不適合訓練資料的新線。換句話說，我們將一定的「偏差bias」引入趨勢線。

我們在實踐中要做的是引入乙個稱為lambda的偏差bias，懲罰函式為：lambda * slope ^ 2。

lambda是懲罰項，此值稱為ridge回歸或l2。

l2分是二次的：lambda slope ^ 2：沒有乙個係數（斜率）非常大。

當lambda = 0時，懲罰也為0，因此我們只是在最小化殘差平方和。

當lambda漸近增加時，我們到達接近0的斜率：因此，lambda越大，我們的**對自變數的敏感性就越小。

lambda是控制偏差方差的調整引數，我們通過交叉驗證來估計其最佳值。

如果l1和l2對比，l2比l1要好一些，因為l2之後，精度更好且較好適應、擬合。l1的效果在處理稀疏資料時候比較棒，且有利於稀疏資料的特徵。