Laplace(拉普拉斯)先驗與L1正則化

2022-07-07 13:12:09 字數 2662 閱讀 5513

在之前的一篇部落格中l1正則化及其推導推導證明了l1正則化是如何使引數稀疏化人,並且提到過l1正則化如果從貝葉斯的觀點看來是laplace先驗,事實上如果從貝葉斯的觀點,所有的正則化都是來自於對引數分布的先驗。現在來看一下為什麼laplace先驗會匯出l1正則化,也順便證明gauss(高斯)先驗會匯出l2正則化。

很多人對最大似然估計不明白,用最簡單的線性回歸的例子來說:如果有資料集\((x, y)\),並且\(y\)是有白雜訊(就是與測量得到的\(y\)與真實的\(y_\)有均值為零的高斯分布誤差),目的是用新產生的\(x\)來得到\(y\)。如果用線性模型來測量,那麼有:

\[f(x) = \sum_i(x_i\theta_i) + \epsilon = x\theta^t + \epsilon \tag

\]其中\(x=(x_1, x_2...x_n)\),\(\epsilon\)是白雜訊,即\(\epsilon \sim n(0, \delta^2)\)。那麼於一對資料集\((x_i, y_i)\)來用,在這個模型中用\(x_i\)得到\(y_i\)的概率是\(y_i \sim n(f(x_i), \delta^2)\):

\[p(y_i|x_i, \theta) = \frac} \exp(-\frac) \tag

\]假設資料集中每一對資料都是獨立的,那麼對於資料集來說由\(x\)得到\(y\)的概率是:

\[p(y|x,\theta)= \prod_i\frac} \exp(-\frac) \tag

\]根據決策論,就可以知道可以使概率\(p(y|x,\theta)\)最大的引數\(\theta^*\)就是最好的引數。那麼我們可以直接得到最大似然估計的最直觀理解:對於乙個模型,調整引數\(\theta\),使得用x得到y的概率最大。那麼引數\(\theta\)就可以由下式得到:

\[\begin

\theta^* &= argmax_ \left(\prod_i\frac} \exp(-\frac)\right) \cr

&=argmax_ \left( -\frac \sum_i \|f(x_i) - y_i\|^2 + \sum_i ln(\delta\sqrt) \right) \cr

&=argmin_ \left(\sum_i \|f(x_i) - y_i\|^2 \right)

\end \tag

\]這個就是最小二乘計算公式。

laplace概率密度函式分布為:

\[f(x|\mu, b) = \frac \exp(-\frac) \tag

\]分布的影象如下所示:

圖1 laplace分布

可以看到laplace分布集中在\(\mu\)附近,而且\(b\)越小,資料的分布就越集中。

先驗的意思是對一種未知的東西的假設,比如說我們看到乙個正方體的骰子,那麼我們會假設他的各個面朝上的概率都是\(1/6\),這個就是先驗。但事實上骰子的材質可能是密度不均的,所以還要從資料集中學習到更接近現實情況的概率。同樣,在機器學習中,我們會根據一些已知的知識對引數的分布進行一定的假設,這個就是先驗。有先驗的好處就是可以在較小的資料集中有良好的泛化效能,當然這是在先驗分布是接近真實分布的情況下得到的了,從資訊理論的角度看,向系統加入了正確先驗這個資訊,肯定會提高系統的效能。我們假設引數\(\theta\)是如下的laplace分布的,這就是laplace先驗:

\[p(\theta_i) = \frac \exp(-\lambda|\theta_i|) \tag

\]其中\(\lambda\)是控制引數\(\theta\)集中情況的超引數,\(\lambda\)越大那麼引數的分布就越集中在0附近。

在前面所說的最大似然估計事實上是假設了\(\theta\)是均勻分布的,也就是\(p(\theta)=constant\),我們最大化的要後驗估計,即是:

\[\begin

\theta^* &= argmax_ \left(\prod_i p(y_i|x_i, \theta) \prod_i p(\theta_i)\right) \cr

&=argmin_ \left(\sum_i \|f(x_i) - y_i\|^2 + \sum_i \ln(p(\theta_i))\right)

\end \tag

\]如果是laplace先驗,將式\((3.1)\)代入到式\((3.2)\)中可得:

\[\theta^* =argmin_ \left(\sum_i \|f(x_i) - y_i\|^2 + \lambda \sum_i |\theta_i|)\right) \tag

\]這就是由laplace匯出l1正則化,我在之前的一篇部落格中l1正則化及其推導分析過\(\lambda\)越大,那麼引數的分布就越集中在0附近,這個與laplace先驗的分析是一致的。

到這裡,我們可以很輕易地匯出l2正則化,假設引數\(\theta\)的分布是符合以下的高斯分布:

\[p(\theta_i) = \frac} \exp(-\lambda\|\theta_i\|^2) \tag

\]代入式\((3.2)\)可以直接得到l2正則化:

\[\theta^* =argmin_ \left(\sum_i \|f(x_i) - y_i\|^2 + \lambda \sum_i \|\theta_i\|^2)\right) \tag

\]【防止爬蟲**而導致的格式問題——鏈結】:

Laplace 拉普拉斯 運算元

摘要 原理 拉普拉斯運算元是二階微分線性運算元,在影象邊緣處理中,二階微分的邊緣定位能力更強,銳化效果更好,因此在進行影象邊緣處理時,直接採用二階微分運算元而不使用一階微分。離散函式的導數退化成了差分,一維一階差分公式和二階差分公式分別為 如圖2所示 圖2 一階微分和二階微分計算 分別對laplac...

拉普拉斯(Laplace)分布

laplace分布的概率密度函式的形式是這樣的 一般 的取值為0,所以形式如下 它是由兩個指數函式組成的,所以又叫做雙指數函式分布 double exponential distribution 均值和方差 均值的求解,若x的概率密度函式為f x 那麼x的均值為均值為0。方差根據 使用pyplot畫...

拉普拉斯運算元 拉普拉斯方程之美

物理學有它自己的羅塞塔石碑。它們是連線宇宙間看上去不同的領域的天書,它們將任何物理學分支同純粹數學聯絡起來。拉普拉斯方程就是其中之一 它幾乎無處不在 在電磁學 在流體力學 在引力 在熱學 在肥皂泡 拉普拉斯方程是以法國數學家pierre simon laplace 皮埃爾 西蒙 拉普拉斯 的名字命名...