線性回歸演算法(二) 最優解與損失函式

2021-10-05 05:00:40 字數 1160 閱讀 5252

要理解最優解和損失函式,我們需要先弄明白什麼是誤差。

以簡單線性回歸為例,如下圖所示,青色資料樣本為真實值y

yy,直線上同一x

xx位置的紅色樣本點為**值y

^\hat

y^​,它們之間的空間距離r=∣

y−y^

∣r=|y-\hat|

r=∣y−y

^​∣就是誤差,即真實樣本點與**樣本點之間的距離。那麼,如果我們把直線上每乙個樣本點的誤差相加求和,就可以得到乙個模型的整體誤差

根據上面的說明,我們明白了整體誤差的概念,但它只是某乙個時刻的。如果我們再對圖中直線進行平移或改變角度,各樣本之間的距離就會發生變化,這樣又可以得到新的整體誤差值。

最終,經過n

nn次變化計算,我們能得到模型在n

nn個不同時刻的整體誤差值。而其中整體誤差值最小的時刻對應的模型,就是我們要找的「最優解」。這一時刻,也是直線擬合資料樣本點效果最好的時刻。簡而言之,「最優解」就是我們能找到的整體誤差最小的模型。

損失函式就是用來求解模型最優解的公式。

要求最優解,就得先定義乙個loss損失函式。對於線性回歸來說,損失函式稱為mse(mean squared error)平方均值誤差,先求平方再求平均。其表示式為los

s=ms

e=1m

∑im(

yi−y

i^)2

loss=mse=\frac\sum_^(y_i-\hat)^2

loss=m

se=m

1​∑i

m​(y

i​−y

i​^​

)2,m

mm表示總樣本數,i

ii代表1到m

mm之間的任意一條樣本,(yi

−yi^

)2(y_i-\hat)^2

(yi​−y

i​^​

)2表示求每條樣本真實值與**值差的平方(即每個樣本點誤差/損失的平方),然後對所有結果進行加和,再除以樣本總數m

mm,得到平均均值誤差。

線性回歸的損失函式與邏輯回歸的損失函式

xi yi 我們有如下的擬合直線 yi xi構建的損失函式是 c i 1 n yi yi 2表示每乙個訓練點 x i,yi 到擬合直線yi xi的豎直距離的平方和,通過最小化上面的損失函式可以求得擬合直線的最佳引數 這裡的損失函式之所以使用平方形式,是使用了 最小二乘法 的思想,這裡的 二乘 指的是...

線形回歸與損失函式

假設 特徵 和 結果 都滿足線性。即不大於一次方。這個是針對 收集的資料而言。收集的資料中,每乙個分量,就可以看做乙個特徵資料。每個特徵至少對應乙個未知的引數。這樣就形成了乙個線性模型函式,向量表示形式 這個就是乙個組合問題,已知一些資料,如何求裡面的未知引數,給出乙個最優解。乙個線性矩陣方程,直接...

線性回歸演算法(二)

本節內容是衡量線性回歸演算法的指標,導圖如下 這個這個mse還有乙個問題,就是量綱不同。資料集是用萬元做單位的,但是mse確實萬元的平方,顯然不同量綱。這個原理跟為什麼有了標準差,還要有方差是一樣的,都是為了統一量綱。所以,我們的解決方法跟方差和標準差是一樣的,讓mse去開方,得到rmse 另外還要...