線性回歸 2 梯度下降

2021-07-10 19:43:52 字數 1272 閱讀 3774

考慮下面的訓練樣本:

我們希望通過房屋面積和臥室數量估計房屋**。

這在裡,輸入

x 是乙個2維的向量。

並且我們用x(

i)1表示訓練集中第

i 個樣本的第乙個特徵(這裡是居住面積),用x(

i)2表示第

i 個樣本的臥室數。

首先我們假設y關

於x的線

性函式為

:hθ(

x)=θ

0+θ1

x1+θ

2x2。為了方便,我們令x0

=1,這樣上式就可以寫成矩陣形式(我們不再區分h(

x)和h

θ(x)

): h(

x)=∑

i=0n

θixi

=θtx

我們期望通過h(

x)輸出的結果(即估計值),與樣本的實際值盡可能的接近,即h(

x(i)

)−y(

i)的絕對值盡量小。因此引入代價函式: j(

θ)=1

2∑i=

1m(h

θ(x(

i))−

y(i)

)2我們期望獲得使得j(

θ)盡可能小的

θ 。考慮梯度下降法: θj

:=θj−

α∂∂θ

jj(θ

) 這裡α

是學習速率,

θ 的初始值是隨機的(當然也可以指定初值)。

下面讓我們看上式中的求導部分,先考慮乙個樣本下的情況:

因此對於乙個訓練樣本我們可以得到更新規則:

下面將其擴充套件到整個訓練樣本集。兩種方法:

1、批梯度下降法,也就是對全部的訓練資料針對某一特徵上求得誤差後再對

θ 進行更新,需要一次讀取所有樣本。:

2、增量梯度下降,每次只讀取乙個樣本,依次用每個樣本來更新,該方法有可能因為

α 的選取不當導致無法收斂:

2 梯度下降 gradient decent

可參考文章 1.learning rate learning rate learning rate 2.自適應的learning rate 自適應調整的目標是 模型訓練的初始階段,adagrad 就是一種可以實現自適應調整學習速率的演算法,其公式如下 adagrad的思想如下 與gradient d...

090001 梯度下降

本講ng大牛講解了梯度下降 gradient descent 方法 首先以波特蘭奧勒岡的房屋面積和售價關係為例,講解了監督學習的一般模式,通過乙個訓練集,利用學習演算法,得到乙個假設 歷史原因造成的叫法,就是乙個 模型 當輸入值x進入,通過假設,得到乙個 值y,如圖所示 當只有乙個變數即面積時,其關...

二 梯度下降

第二講正式開始介紹機器學習中的監督學習,首先宣告了以下約定 對於m組訓練樣本,x表示其輸入 input feature y表示其輸出 target variable m是乙個正整數 表示個數的嘛 x和y可是是向量也可以是標量,不過入門而言一般y為標量,x i y i 表示訓練樣本,表示訓練集 我們的...