機器學習筆記02 多變數線性回歸模型

2021-09-26 21:50:20 字數 3154 閱讀 9216

n 代表特徵的數量

x (i

)x^

x(i)

代表第i個訓練例項,是特徵矩陣中的第i行,是乙個向量。

x j(

i)

x_j^

xj(i)​

代表特徵矩陣中第i行的第j個特徵。

支援多變數的假設h表示為:hθ(

x)=θ

0+θ1

x1+θ

2x2+

...+

θnxn

h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n

hθ​(x)

=θ0​

+θ1​

x1​+

θ2​x

2​+.

..+θ

n​xn

這個公式中有n+1個引數和n個變數,為了使得公式能夠簡化一些,引入x0=

1x_0=1

x0​=

1,則公式轉化為:hθ(

x)=θ

0x0+

θ1x1

+θ2x

2+..

.+θn

xn

h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n

hθ​(x)

=θ0​

x0​+

θ1​x

1​+θ

2​x2

​+..

.+θn

​xn​

此時模型中的引數是乙個n+1維的向量,任何乙個訓練例項也都是n+1維的向量,特徵矩陣x的維度是m*(n+1)。因此公式可以簡化為:hθ(

x)=θ

tx

h_\theta(x)=\theta^tx

hθ​(x)

=θtx

,其中上標t代表矩陣轉置。

j (θ

0,θ1

...θ

n)=1

2m∑i

=1m(

hθ(x

(i)−

y(i)

))

2j(\theta_0,\theta_1...\theta_n)=\frac \sum_^m(h_\theta(x^-y^))^2

j(θ0​,

θ1​.

..θn

​)=2

m1​∑

i=1m

​(hθ

​(x(

i)−y

(i))

)2其中h θ(

x)=θ

tx=θ

0x0+

θ1x1

+θ2x

2+..

.+θn

xn

h_\theta(x)=\theta^tx=\theta_0x_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n

hθ​(x)

=θtx

=θ0​

x0​+

θ1​x

1​+θ

2​x2

​+..

.+θn

​xn​

我們的目標和單變數線性回歸問題中的一樣,是要找出使得代價函式最小的一系列引數。

多變數線性回歸的批量梯度下降演算法為:

repeatj(\theta_0,\theta_1...\theta_n)

θj​:=θ

j​−α

∂θj​

∂​j(

θ0​,

θ1​.

..θn

​)}即:

repeat\frac \sum_^m(h_\theta(x^-y^))^2

θj​:=θ

j​−α

∂θj​

∂​2m

1​∑i

=1m​

(hθ​

(x(i

)−y(

i)))

2}求導數後得到:

repeat\sum_^m(h_\theta(x^-y^)\cdot x_j^)

θj​:=θ

j​−α

m1​∑

i=1m

​(hθ

​(x(

i)−y

(i))

⋅xj(

i)​)

(for j=0,1,…,n)

}我們開始隨機選擇一系列的引數值,計算所有的**結果後,再給所有的引數乙個新的值,如此迴圈直到收斂。

梯度下降法實踐1-特徵縮放

當我們面對多維特徵問題的時候,我們要保證這些特徵都具有相近的尺度,這將幫助梯度下降演算法更塊地收斂。(嘗試將所有特徵的尺度都盡量縮放到-1與1之間,令:xn=

xn−μ

ns

nx_n=\frac

xn​=sn

​xn​

−μn​

​,其中μ

n\mu_n

μn​是平均值,s

ns_n

sn​是標準差)

梯度下降法實踐2 -學習率

梯度下降演算法的每次迭代受到學習率的影響,如果學習率α

\alpha

α過小,則達到收斂所需的迭代次數會非常高;如果學習率α

\alpha

α過大,每次迭代可能不會減小代價函式,可能會越過區域性最小值導致無法收斂。通常可以考慮嘗試學習率:α

\alpha

α=0.01, 0.03, 0.1, 0.3, 1, 3, 10

正規方程是通過求解下面的方程來找出使得代價函式最小的引數的:∂∂θ

jj(θ

j)=0

\frac j(\theta_j)=0

∂θj​∂​

j(θj

​)=0

。假設我們的訓練集特徵矩陣為x(包含了x0=

1x_0=1

x0​=

1)並且我們的訓練集結果為向量y,則利用正規方程解出向量θ=(

xtx)

−1xt

y。

\theta=(x^x)^x^y。

θ=(xtx

)−1x

ty。對於那些不可逆的矩陣,正規方程方法是不能用的。

機器學習 多變數線性回歸

注 本系列部落格是博主學習stanford大學 andrew ng 教授的 機器學習 課程筆記。博主深感學過課程後,不進行總結非常easy遺忘,依據課程加上自己對不明確問題的補充遂有此系列部落格。本系列部落格包含線性回歸 邏輯回歸 神經網路 機器學習的應用和系統設計 支援向量機 聚類 將維 異常檢測...

機器學習 多變數線性回歸

1 說明 需要 房屋的 除了房屋面積還有其他的特徵量,比如層數,年齡,臥室數目等等,如下圖。因為有多個特徵值,所以稱為多變數線性回歸。2 假設函式 單變數只有乙個特徵值,所以之前的假設函式將不再適用,下面是多變數的假設函式。其中x0設定為1 3 特徵縮放 在所有特徵值中,size的範圍大概在0 20...

機器學習(三) 多變數線性回歸

目錄 一 前言 二 模型描述 1.hypothesis 2.cost function 三 多元梯度下降法 1.特徵放縮 2.學習率 的選擇 四 特徵與多項式回歸 五 正規方程 區別於梯度下降法 六 梯度下降法與正規方程法的比較 在所有公式中,n為特徵個數,m為樣本數量 與前面單變數線性回歸類似,只...