線性回歸最小二乘與嶺回歸的概率論解釋

背景：

考慮乙個多項式擬合問題，如下圖，綠線的方程是sin(2πx)sin⁡(2πx)，藍點是由綠線並加上噪音（這些噪音是預設符合正態分佈的）生成。已知條件是由nn個點構成的訓練集x=(x1,...xn)tx=(x1,...xn)t，以及這些點對應的目標值t=(t1,...tn)tt=(t1,...tn)t。現在的目標是：根據藍點來擬合一條曲線，而綠線就是我們要最終擬合的效果。

問題：假設我們最終要擬合的曲線是下面這個mm階方程，方程如下：

y(x,w)=w0+w1x+w2x2+...+wmxm=∑j=0mwjxj（方程1）

其中ww是該方程的係數，也是我們最終要求的物件；

通常我們會使用最小二乘法來做誤差函式（error function，其是一種狹義的損失函式loss function），其公式如下：

e(w)=12∑i=1n2（方程2）

其中tntn是這些點真實的數值，即上圖中的藍點，我們的目標就是求得一組ww使e(w)e(w)的值最小；

這似乎是乙個天經地義的事情，但它是否是正確的？為什麼正確？為什麼不能直接將殘差累加或是殘差的絕對值來作為損失函式，如下式？

e(w)=12∑i=1n|y(xn,w)−tn|

在使用最小二乘作為誤差函式的時候，我們缺乏乙個對公式的解釋，下面本文就從概率論的角度來解釋最小二乘背後的原因。

概率論解釋最小二乘法：

這裡有個假設：乙個點的觀測值符合以其真實值為均值，方差為β−1β−1(β−1=σ2β−1=σ2)的高斯分布；即是預設我們的誤差是屬於高斯分布的，寫成數學表示式即：

p(t|x,w,β)=n(t|y(x,w),β−1)（方程3）

如果每個xx都是獨立同分布的，那麼對於觀測值tt的最大似然函式，即：

p(t|x,w,β)=∏n=1nn(tn|y(xn,w),β−1)（方程4）

取對數似然函式，即：

lnp(t|x,w,β)=∑n=1nlnn(tn|y(xn,w),β−1)

ln⁡p(t|x,w,β)=∑n=1nlnn(tn|y(xn,w),β−1)

即：lnp(t|x,w,β)=−β2∑n=1n2+n2lnβ−n2ln(2π)（方程5）

ln⁡p(t|x,w,β)=−β2∑n=1n2+n2ln⁡β−n2ln⁡(2π)（方程5）

目標是求方程5的最大值，因為最終要求的是ww，因此最終就成了求公式6的最小值，即：

∑n=1n2（公式6）

這個竟然就是一開始的最小二乘法！

總結1：

利用最小二乘法求解本質上是求解似然函式的最大值，並且預設殘差屬於高斯分布。

概率論解釋嶺回歸：

我們在上面的基礎上增加乙個先驗概率：擬合函式的引數ww屬於乙個均值為0的多元高斯分布，本質是在限制ww中的各項相差不能太大，即：

p(w|α)=n(w|0,α−1i)=(α2π)(m+1)/2exp（公式7）

對公式7求對數，即：

lnp(w|α)=m+12lnα2π−α2wtw（公式8）

由於（這是貝葉斯函式的另一種表達方式）：

後驗概率=先驗概率∗似然函式（公式9）

因此：p(w|x,t,α,β)正比於p(t|x,w,β)p(w|α)（公式10）

p(w|x,t,α,β)正比於p(t|x,w,β)p(w|α)（公式10）

現在我們可以通過已知條件，通過後驗概率來求出最有可能的ww，即求公式10的最大值。取公式10左式的負對數，並將公式5和公式8帶入，求公式10的最大值可等價於求下式的最小值，即：

β2∑n=1n2+α2wtw

總結2：

嶺回歸本質上是求解後驗概率的最大值，並且新增的先驗條件是引數ww符合多元高斯分布。

極大似然估計(mle)和極大後驗估計(map)：

在用概率論解釋最小二乘法的時候，我們使用的是mle，即求出似然函式的最大值；在用概率論解釋嶺回歸時，我們使用的是map，即求出後驗概率的最大值。

參考：

sklearn 最小二乘線性回歸

sklearn是機器學習中的乙個常用的python第三方模組，裡面對機器學習的許多方法進行了封裝，在進行機器學習的任務時，許多常用的演算法可在這個模組中直接呼叫。並且sklearn中還提供了許多可用於分類回歸的優質資料集。使用好sklearn最直接的方法就是仔細閱讀官方 sklearn就像是乙個模...

線性回歸最小二乘 diabetes

資料集特徵 age 年齡性別 bmi 體質指數 bp 血壓 s1,s2,s3,s4,s4,s6 六種血清的化驗資料標籤 value 一年後疾病進展的量化指標一載入庫 import numpy as np import pandas as pd from sklearn import dat...

線性回歸最小二乘求解

線性回歸線性回歸用於數值它的主要思想是利用預定的權值將屬性進行線性組合來表示類別 y w0 w1x1 w2x2 wnxn 其中，y是類別屬性值，x1,x2,xn是一般屬性值，w1,w2,xn是權值，w0稱為偏置，類似於一元線性回歸y ax b中b。求解線性回歸就是通過已知的一些資料點 1,xi1...

線性回歸 最小二乘與嶺回歸的概率論解釋

sklearn 最小二乘線性回歸

線性回歸 最小二乘 diabetes

線性回歸 最小二乘求解

相關推薦

線性回歸最小二乘與嶺回歸的概率論解釋

線性回歸最小二乘 diabetes

線性回歸最小二乘求解