正則化與資料先驗分布的關係

2022-03-17 11:03:13 字數 1736 閱讀 1456

過擬合的原因:使用的模型過於複雜,根據vc維理論:vc維很高的時候,就容易發生bias很低,但variance很高的情形.

解決過擬合最常用的方法就是regularization, 常用的有:l1正則, l2正則等.l1正則會使得引數稀疏化, l2正則可以起到平滑的作用, 從貝葉斯理論的角度審視下正則化.

從貝葉斯的角度來看, 正則化等價於對模型引數引入先驗分布.(先驗概率可理解為統計概率,後驗概率可理解為條件概率)

一. linear regression

我們先看下最原始的linear regression:

此處以 為準

由最大似然估計,

取對數:

即:這就匯出了我們原始的 least-squares 損失函式,但這是在我們對引數 w 沒有加入任何先驗分布的情況下。在資料維度很高的情況下,我們的模型引數很多,模型複雜度高,容易發生過擬合。這個時候,我們可以對引數 w 引入先驗分布,降低模型複雜度。

ridge regression

我們對引數w引入協方差為a的零均值高斯先驗.(每乙個分量都服從該分布)

左式有點問題,引數w的高斯先驗項的係數少了個連乘符號

取對數:

等價於:

上式即ridge regression.對引數

引入高斯先驗

等價於l2正則化

ridge regression 並不具有產生稀疏解的能力,也就是說引數並不會真出現很多零。假設我們的**結果與兩個特徵相關,l2正則傾向於綜合兩者的影響,給影響大的特徵賦予高的權重;而l1正則傾向於選擇影響較大的引數,而捨棄掉影響較小的那個。實際應用中 l2正則表現往往會優於 l1正則,但 l1正則會大大降低我們的計算量

拉普拉斯分布

重複之前的推導過程我們很容易得到:

該問題通常被稱為 lasso (least absolute shrinkage and selection operator) 。lasso 仍然是乙個 convex optimization 問題,不具有解析解。它的優良性質是能產生稀疏性,導致 w 中許多項變成零。對引數引入

拉普拉斯先驗

等價於 l1正則化

總結:正則化引數等價於對引數引入先驗分布,使得 模型複雜度 變小(縮小解空間),對於雜訊以及 outliers 的魯棒性增強(泛化能力)。整個最優化問題從貝葉斯觀點來看是一種貝葉斯最大後驗估計,其中 正則化項 對應後驗估計中的 先驗資訊,損失函式對應後驗估計中的似然函式,兩者的乘積即對應貝葉斯最大後驗估計的形式。

**:

機器學習 線性回歸 二 先驗與正則化

很多接觸過機器學習的同學的人都聽過正則化是為了防止過擬合,很簡單啊,不就是 l w 1 2 i 1n y i wx i 2 w 22 2 2 l w 1 2 i 1n y i wx i 2 w 22 重寫了損失函式,加入的後半部分是正則化項,整個損失函式的目的直觀上理解是既要讓模型擬合訓練樣本,又要...

Laplace(拉普拉斯)先驗與L1正則化

在之前的一篇部落格中l1正則化及其推導推導證明了l1正則化是如何使引數稀疏化人,並且提到過l1正則化如果從貝葉斯的觀點看來是laplace先驗,事實上如果從貝葉斯的觀點,所有的正則化都是來自於對引數分布的先驗。現在來看一下為什麼laplace先驗會匯出l1正則化,也順便證明gauss 高斯 先驗會匯...

正態分佈與泊松分布的關係

正態分佈 normal distribution 又名高斯分布 gaussian distribution 正規分布,是乙個非常常見的連續概率分布。正態分佈在統計學上十分重要,經常用在自然和社會科學來代表乙個不明的隨機變數。若隨機變數x服從乙個位置引數為 mu 尺度引數為 sigma 的正態分佈,記...