線性回歸 最小二乘與嶺回歸的概率論解釋

2022-03-31 22:18:00 字數 2237 閱讀 9575

背景:

考慮乙個多項式擬合問題,如下圖,綠線的方程是sin(2πx)sin⁡(2πx),藍點是由綠線並加上噪音(這些噪音是預設符合正態分佈的)生成。已知條件是由nn個點構成的訓練集x=(x1,...xn)tx=(x1,...xn)t,以及這些點對應的目標值t=(t1,...tn)tt=(t1,...tn)t。現在的目標是:根據藍點來擬合一條曲線,而綠線就是我們要最終擬合的效果。

問題:假設我們最終要擬合的曲線是下面這個mm階方程,方程如下:

y(x,w)=w0+w1x+w2x2+...+wmxm=∑j=0mwjxj(方程1)

y(x,w)=w0+w1x+w2x2+...+wmxm=∑j=0mwjxj(方程1)

其中ww是該方程的係數,也是我們最終要求的物件;

通常我們會使用最小二乘法來做誤差函式(error function,其是一種狹義的損失函式loss function),其公式如下:

e(w)=12∑i=1n2(方程2)

e(w)=12∑i=1n2(方程2)

其中tntn是這些點真實的數值,即上圖中的藍點,我們的目標就是求得一組ww使e(w)e(w)的值最小;

這似乎是乙個天經地義的事情,但它是否是正確的?為什麼正確?為什麼不能直接將殘差累加或是殘差的絕對值來作為損失函式,如下式?

e(w)=12∑i=1n|y(xn,w)−tn|

e(w)=12∑i=1n|y(xn,w)−tn|

在使用最小二乘作為誤差函式的時候,我們缺乏乙個對公式的解釋,下面本文就從概率論的角度來解釋最小二乘背後的原因。

概率論解釋最小二乘法:

這裡有個假設:乙個點的觀測值符合以其真實值為均值,方差為β−1β−1(β−1=σ2β−1=σ2)的高斯分布;即是預設我們的誤差是屬於高斯分布的,寫成數學表示式即:

p(t|x,w,β)=n(t|y(x,w),β−1)(方程3)

p(t|x,w,β)=n(t|y(x,w),β−1)(方程3)

如果每個xx都是獨立同分布的,那麼對於觀測值tt的最大似然函式,即:

p(t|x,w,β)=∏n=1nn(tn|y(xn,w),β−1)(方程4)

p(t|x,w,β)=∏n=1nn(tn|y(xn,w),β−1)(方程4)

取對數似然函式,即:

lnp(t|x,w,β)=∑n=1nlnn(tn|y(xn,w),β−1)

ln⁡p(t|x,w,β)=∑n=1nlnn(tn|y(xn,w),β−1)

即:lnp(t|x,w,β)=−β2∑n=1n2+n2lnβ−n2ln(2π)(方程5)

ln⁡p(t|x,w,β)=−β2∑n=1n2+n2ln⁡β−n2ln⁡(2π)(方程5)

目標是求方程5的最大值,因為最終要求的是ww,因此最終就成了求公式6的最小值,即:

∑n=1n2(公式6)

∑n=1n2(公式6)

這個竟然就是一開始的最小二乘法!

總結1:

利用最小二乘法求解本質上是求解似然函式的最大值,並且預設殘差屬於高斯分布。

概率論解釋嶺回歸:

我們在上面的基礎上增加乙個先驗概率:擬合函式的引數ww屬於乙個均值為0的多元高斯分布,本質是在限制ww中的各項相差不能太大,即:

p(w|α)=n(w|0,α−1i)=(α2π)(m+1)/2exp(公式7)

p(w|α)=n(w|0,α−1i)=(α2π)(m+1)/2exp(公式7)

對公式7求對數,即:

lnp(w|α)=m+12lnα2π−α2wtw(公式8)

lnp(w|α)=m+12lnα2π−α2wtw(公式8)

由於(這是貝葉斯函式的另一種表達方式):

後驗概率=先驗概率∗似然函式(公式9)

後驗概率=先驗概率∗似然函式(公式9)

因此:p(w|x,t,α,β)正比於p(t|x,w,β)p(w|α)(公式10)

p(w|x,t,α,β)正比於p(t|x,w,β)p(w|α)(公式10)

現在我們可以通過已知條件,通過後驗概率來求出最有可能的ww,即求公式10的最大值。取公式10左式的負對數,並將公式5和公式8帶入,求公式10的最大值可等價於求下式的最小值,即:

β2∑n=1n2+α2wtw

β2∑n=1n2+α2wtw

總結2:

嶺回歸本質上是求解後驗概率的最大值,並且新增的先驗條件是引數ww符合多元高斯分布。

極大似然估計(mle)和極大後驗估計(map):

在用概率論解釋最小二乘法的時候,我們使用的是mle,即求出似然函式的最大值;在用概率論解釋嶺回歸時,我們使用的是map,即求出後驗概率的最大值。

參考:

sklearn 最小二乘線性回歸

sklearn是機器學習中的乙個常用的python第三方模組,裡面對機器學習的許多方法進行了封裝,在進行機器學習的任務時,許多常用的演算法可在這個模組中直接呼叫。並且sklearn中還提供了許多可用於分類 回歸的優質資料集。使用好sklearn最直接的方法就是仔細閱讀官方 sklearn就像是乙個模...

線性回歸 最小二乘 diabetes

資料集 特徵 age 年齡 性別 bmi 體質指數 bp 血壓 s1,s2,s3,s4,s4,s6 六種血清的化驗資料 標籤 value 一年後疾病進展的量化指標 一 載入庫 import numpy as np import pandas as pd from sklearn import dat...

線性回歸 最小二乘求解

線性回歸 線性回歸用於數值 它的主要思想是利用預定的權值將屬性進行線性組合來表示類別 y w0 w1x1 w2x2 wnxn 其中,y是類別屬性值,x1,x2,xn是一般屬性值,w1,w2,xn是權值,w0稱為偏置,類似於一元線性回歸y ax b中b。求解線性回歸就是通過已知的一些資料點 1,xi1...