線性回歸 2 梯度下降

考慮下面的訓練樣本：

我們希望通過房屋面積和臥室數量估計房屋**。

這在裡，輸入

x 是乙個2維的向量。

並且我們用x(

i)1表示訓練集中第

i 個樣本的第乙個特徵（這裡是居住面積），用x(

i)2表示第

i 個樣本的臥室數。

首先我們假設y關

於x的線

性函式為

：hθ(

x)=θ

0+θ1

x1+θ

2x2。為了方便，我們令x0

=1，這樣上式就可以寫成矩陣形式(我們不再區分h(

x)和h

θ(x)

): h(

x)=∑

i=0n

θixi

=θtx

我們期望通過h(

x)輸出的結果（即估計值），與樣本的實際值盡可能的接近，即h(

x(i)

)−y(

i)的絕對值盡量小。因此引入代價函式： j(

θ)=1

2∑i=

1m(h

θ(x(

i))−

y(i)

)2我們期望獲得使得j(

θ)盡可能小的

θ 。考慮梯度下降法： θj

:=θj−

α∂∂θ

jj(θ

) 這裡α

是學習速率，

θ 的初始值是隨機的（當然也可以指定初值）。

下面讓我們看上式中的求導部分，先考慮乙個樣本下的情況：

因此對於乙個訓練樣本我們可以得到更新規則：

下面將其擴充套件到整個訓練樣本集。兩種方法：

1、批梯度下降法，也就是對全部的訓練資料針對某一特徵上求得誤差後再對

θ 進行更新，需要一次讀取所有樣本。：

2、增量梯度下降，每次只讀取乙個樣本，依次用每個樣本來更新，該方法有可能因為

α 的選取不當導致無法收斂：

2 梯度下降 gradient decent

可參考文章 1.learning rate learning rate learning rate 2.自適應的learning rate 自適應調整的目標是模型訓練的初始階段，adagrad 就是一種可以實現自適應調整學習速率的演算法，其公式如下 adagrad的思想如下與gradient d...

090001 梯度下降

本講ng大牛講解了梯度下降 gradient descent 方法首先以波特蘭奧勒岡的房屋面積和售價關係為例，講解了監督學習的一般模式，通過乙個訓練集，利用學習演算法，得到乙個假設歷史原因造成的叫法，就是乙個模型當輸入值x進入，通過假設，得到乙個值y，如圖所示當只有乙個變數即面積時，其關...

二梯度下降

第二講正式開始介紹機器學習中的監督學習，首先宣告了以下約定對於m組訓練樣本，x表示其輸入 input feature y表示其輸出 target variable m是乙個正整數表示個數的嘛 x和y可是是向量也可以是標量，不過入門而言一般y為標量，x i y i 表示訓練樣本，表示訓練集我們的...

線性回歸 2 梯度下降

2 梯度下降 gradient decent

090001 梯度下降

二 梯度下降

相關推薦

二梯度下降