第二課 監督學習應用 梯度下降

2021-07-22 09:25:29 字數 1736 閱讀 6002

h(

x)為目標函式

θ 為引數parameters xn

為特徵

n 為特徵個數 mh

(x)=

hθ(x

)=θ0

+θ1∗

x1+θ

2∗x2

+...

+θn∗

xn即 h(

x)=h

θ(x)

=∑i=

0nθi

∗xi=

θtx

根據訓練集(training sets)求出θ

其中一種方法為最小二乘方(lms,least mean squares): mi

nθj(

θ)其中 j(

θ)=1

2∑i=

1n(h

θ(xi

)−yi

)2表示估計值與真實值之間的誤差

計算求解

θ 的一種方法為梯度下降法:

考慮只有乙個樣本點時

重複對上式計算,直到

θ 值不變時,結果收斂。

其中,α

將該方法拓展到對個訓練物件時,有兩種梯度下降方法,第一種叫做批量梯度下降(batch gradient descent):

該方法最小化所有訓練樣本的損失函式,使得最終求解的是全域性的最優解,即求解的引數是使得風險函式最小。計算量大

另外一種叫做隨機梯度下降(stochastic gradient descent):

該方法最小化每條樣本的損失函式,雖然不是每次迭代得到的損失函式都向著全域性最優方向, 但是大的整體的方向是向全域性最優解的,最終的結果往往是在全域性最優解附近。計算量小

2.1矩陣微分

跡的符號為

關於矩陣跡的一些性質

這些性質可以自己證明

2.2再探最小均方差

下面將用矩陣運算的思想來求解最小均方差的解

首先把目標函式使用矩陣形式表示

上式證明,將問題矩陣化後,導數為0,可以求出

θ 的值

監督學習應用 梯度下降

andrew ng 機器學習筆記 這一系列文章文章是我再 andrew ng的stanford公開課之後自己整理的一些筆記,除了整理出課件中的主要知識點,另外還有一些自己對課件內容的理解。同時也參考了很多優秀博文,希望大家共同討論,共同進步。參考博文 本節課程內容包括 1 linear regres...

監督學習應用 梯度下降

andrew ng 機器學習筆記 這一系列文章文章是我再 andrew ng的stanford公開課之後自己整理的一些筆記,除了整理出課件中的主要知識點,另外還有一些自己對課件內容的理解。同時也參考了很多優秀博文,希望大家共同討論,共同進步。參考博文 本節課程內容包括 1 linear regres...

監督學習應用 梯度下降筆記

第1 2節主要就是講了線性回歸的東西。課程中用了兩種方法來解決引數求解的問題 1是梯度下降的方法 2是稱為隨機 增量 梯度下降的方法。首先我們來看下面這張圖 我們已知一些 x,y 點的分布。現在我假設有一已知的x,想求期望的y是多少。假設現在我能 用y h x 表示x和y的關係。那麼輸入x,輸出y就...