線性回歸損失函式為什麼要用平方形式

2021-07-27 12:46:04 字數 1790 閱讀 8234

我們在前面的《線性回歸》中了解到,對於訓練資料樣本(x

i,yi

) ,我們有如下的擬合直線: yˆ

i=θ0

+θ1∙

xi我們構建了乙個損失函式: c=

∑i=1

n(yi

−yˆi

)2表示每個訓練資料點(x

i,yi

) 到擬合直線yˆ

i=θ0

+θ1∙

xi的豎直距離的平方和,通過最小化這個損失函式來求得擬合直線的最佳引數

θ ,實際上就是求損失函式c在取得最小值情況下

θ 的值。那麼損失函式為什麼要用平方差形式呢,而不是絕對值形式,一次方,三次方,或四次方形式?

簡單的說,是因為使用平方形式的時候,使用的是「最小二乘法」的思想,這裡的「二乘」指的是用平方來度量觀測點與估計點的距離(遠近),「最小」指的是引數值要保證各個觀測點與估計點的距離的平方和達到最小。

最小二乘法以估計值與觀測值的平方和作為損失函式,在誤差服從正態分佈的前提下,與極大似然估計的思想在本質上是相同。對於極大似然估計,可以參考下前期文章《極大似然估計》。

我們設觀測輸出與預估資料之間的誤差為: εi

=yi−

yˆi

我們通常認為

ε 服從正態分佈,即: f(

εi;u

,σ2)

=1σ2

π−−√

∙exp[−

(εi−

u)22

σ2]

我們求的引數

ε 的極大似然估計(u

,σ2)

,即是說,在某個(u

,σ2)

下,使得服從正態分佈的

ε 取得現有樣本εi

的概率最大。那麼根據極大似然估計函式的定義,令: l(

u,σ2

)=∏i

=1n1

2π−−

√σ∙exp(−

(εi−

u)22

σ2)

取對數似然函式:

logl(u

,σ2)

=−n2

logσ2−

n2log2π−

∑i=1

n(εi

−u)2

2σ2

分別求(u,

σ2) 的偏導數,然後置0,最後求得引數(u

,σ2)

的極大似然估計為: u=

1n∑i

=1nε

i σ2

=1n∑

i=1n

(εi−

u)2

yˆi=

θ0+θ

1∙xi

,實質上是求預估值yˆ

i 與觀測值yi

之間的誤差εi

最小(最好是沒有誤差)的情況下

θ 的值。而前面提到過,

ε 是服從引數(u

,σ2)

的正態分佈,那最好是均值

u 和方差

σ趨近於0或越小越好。即: u=

1n∑i

=1nε

i=1n

∑i=1

n(yi

−yˆi

) 趨近於0或越小越好 σ2

=1n∑

i=1n

(εi−

u)2=

1n∑i

=1n(

yi−y

ˆi−u

)2≈1

n∑i=

1n(y

i−yˆ

i)2

而這與最前面構建的平方形式損失函式本質上是等價的。

為什麼邏輯回歸要用sigmoid函式

為什麼邏輯回歸要用sigmoid函式 sigmoid是推導出來的,不是假設出來的,lr的假設是兩個類服從均值不等,方差相等的高斯分布,然後通過貝葉斯決策推導 為什麼假設服從高斯分布 1 因為高斯分布是比較容易處理的分布 2 從資訊理論的角度上看,當均值和方差已知時 儘管你並不知道確切的均值和方差,但...

邏輯回歸為什麼使用對數損失函式

在前面介紹的 邏輯回歸是個什麼邏輯 中,我們構建的邏輯回歸模型是 p y 1 x 11 e t x 在模型的數學形式確定後,剩下的就是如何去求解模型中的引數 而在已知模型和一定樣本的情況下,估計模型的引數,在統計學中常用的是極大似然估計方法。即找到一組引數 使得在這組引數下,樣本資料的似然度 概率 ...

線性回歸的損失函式與邏輯回歸的損失函式

xi yi 我們有如下的擬合直線 yi xi構建的損失函式是 c i 1 n yi yi 2表示每乙個訓練點 x i,yi 到擬合直線yi xi的豎直距離的平方和,通過最小化上面的損失函式可以求得擬合直線的最佳引數 這裡的損失函式之所以使用平方形式,是使用了 最小二乘法 的思想,這裡的 二乘 指的是...