演算法梳理之線性回歸

線性回歸模型作為演算法梳理的第乙個模型，也是機器學習中最為基礎與容易理解的模型，在各個機器學習的書籍與教程中也是作為機器學習的引例。線性回歸的資料集的形式為多個屬性x與乙個對應的y，目的是求解x與y之間的線性對映關係，優化求解引數的目標是降低**值與y之間的差別，「差別」的度量方式有很多種（如均方誤差，均方根誤差等等），其中均方誤差可以看作是高斯雜訊模型的假設下的最大似然解。若屬性x只有乙個，則在x，y組成的二維空間下求解最小二乘法來估計引數。若屬性x為多個，則可以寫出均方誤差的矩陣形式，通過正規化來求解，當求解不唯一的時候需要使用正則化等手段進一步約束並求解引數。

一般向量形式：f(x

)=wt

bf(x)=w^tx + b

f(x)=w

tx+b

,其中w=(

w1;w

2;..

.;wn

)w=(w_1;w_2;...;w_n)

w=(w1

;w2

;...

;wn

),w和b學得之後，模型就得以確定。

當屬性的數目只有乙個的時候：

試圖學習f(x

i)=w

xi+b

if(x_i)=wx_i+b_i

f(xi)

=wxi

+bi

，使得f(x

i)≈y

if(

xi)

≈yi

。採用均方誤差作為衡量f(x

)和

yf(x)和y

f(x)和y

的度量，選取w和b

w和bw和

b使得均方誤差的結果最小的過程就是線性回歸模型的最小二乘「引數估計」，最小二乘法就是試圖找到一條直線，使得所有樣本到直線上的歐氏距離之和最小。

( w∗

,b∗)

=arg

⁡min⁡∑

i=1m

(yi−

wxi−

2(w^*,b^*)=\arg\min\sum_^(y_i-wx_i-b)^2

(w∗,b∗

)=argmin∑i

=1m

(yi

−wxi

−b)

2對w，b分別求導，令其為零便可求得w與b的閉式解：

w =∑

i=1m

yi(x

i−xˉ

)∑i=

1mxi

2−1m

(∑i=

1mxi

2w=\frac^y_i(x_i-\bar)} ^x_i^2-\frac(\sum_^x_i^2)^2}

w=∑i=1

mxi

2−m

1(∑

i=1m

xi2

)2∑

i=1m

(xi

−xˉ)

b =1

m∑i=

1m(y

i−wx

b=\frac\sum_^(y_i-wx_i)

b=m1∑

i=1m

(yi

−wx

i)當屬性的數目為多個時（多元線性回歸）：

類似寫出其均方誤差的矩陣表示：

w ^∗

=arg

⁡min⁡(

y−xw

^)t(

xw^−

\hat^*=\arg\min(y-x\hat)^t(x\hat-y)

w^∗=

argmin(y

−xw^

)t(x

w^−y

)令e w^

=(y−

xw^)

t(xw

^−y)

e_}=(y-x\hat)^t(x\hat-y)

ew^=(

y−xw

^)t(

xw^−

y)化簡得 ew^

=yyt

−2yt

xw^+

w^tx

txw^

e_}=yy^t-2y^tx\hat+\hat^tx^tx\hat

ew^=y

yt−2

ytxw

^+w^

txtx

w^ 對

^\hat

w^求導:

∂ ew

^∂w^

=−2x

ty+2

xtxw

^\frac}}}=-2x^ty+2x^tx\hat

∂w^∂ew^

=−

2xty

+2xt

xw^令其為0，便可得到乙個非齊次方程組：

x tx

w^=x

x^tx\hat=x^ty

xtxw^=x

ty，在這裡需要討論其解得情況：若xtx

x^tx

xtx滿秩，則存在唯一解

w ^∗

=(xt

x)−1

y\hat^*=(x^tx)^x^ty

w^∗=(xt

x)−1

xty。若xt

xx^tx

xtx不是滿秩，則可能是無解，也可能是無陣列解，可以通過pca降維使得特徵數量變少，提出線性相關得特徵，增加樣本量，和正則化來調節與約束最終的

w ^∗

\hat^*

w^∗。

演算法梳理之線性回歸

線性回歸演算法梳理

線性回歸演算法梳理

線性回歸演算法梳理

演算法梳理之線性回歸

線性回歸演算法梳理

線性回歸演算法梳理

線性回歸演算法梳理

相關推薦