機器學習系列 梯度下降

2021-10-01 07:28:50 字數 1427 閱讀 6713

梯度下降介紹

梯度介紹:

在微積分裡面,對多元函式的引數求∂偏導數,把求得的各個引數的偏導數以向量的形式寫出來,就是梯度。比如函式f(x,y), 分別對x,y求偏導數,求得的梯度向量就是(∂f/∂x, ∂f/∂y)

t,簡稱grad f(x,y)或者▽f(x,y)。對於在點(x0,y0)的具體梯度向量就是(∂f/∂x

0, ∂f/∂y0)

t。或者▽f(x0,y0),如果是3個引數的向量梯度,就是(∂f/∂x, ∂f/∂y,∂f/∂z)

t,以此類推。

梯度:從幾何意義上講,就是函式變化增加最快的地方。具體來說,對於函式f(x,y),在點(x0,y0),沿著梯度向量的方向就是(∂f/∂x

0, ∂f/∂y0)

t的方向是f(x,y)增加最快的地方。或者說,沿著梯度向量的方向,更加容易找到函式的最大值。反過來說,沿著梯度向量相反的方向,也就是 -(∂f/∂x

0, ∂f/∂y0)

t的方向,梯度減少最快,也就是更加容易找到函式的最小值。

在機器學習演算法中,在最小化損失函式時,可以通過梯度下降法來一步步的迭代求解,得到最小化的損失函式,和模型引數值。反過來,如果我們需要求解損失函式的最大值,這時就需要用梯度上公升法來迭代了。

梯度下降法和梯度上公升法是可以互相轉化的。比如我們需要求解損失函式f(θ)的最小值,這時我們需要用梯度下降法來迭代求解。但是實際上,我們可以反過來求解損失函式 -f(θ)的最大值,這時梯度上公升法就派上用場了。

梯度下降不一定能夠找到全域性的最優解,有可能是乙個區域性最優解。當然,如果損失函式是凸函式,梯度下降法得到的解就一定是全域性最優解。

步長(learning rate):步長決定了在梯度下降迭代的過程中,每一步沿梯度負方向前進的長度。用下山的例子,步長就是在當前這一步所在位置沿著最陡峭最易下山的位置走的那一步的長度。

特徵(feature):指的是樣本中輸入部分,比如2個單特徵的樣本(x(0),y(0)),(x(1),y(1)),則第乙個樣本特徵為x(0),第乙個樣本輸出為y(0)。

假設函式(hypothesis function):在監督學習中,為了擬合輸入樣本,而使用的假設函式,記為hθ(

x)。比如對於單個特徵的m個樣本(x(

i),y

(i))

(i=1,2,...

m),可以採用擬合函式如下: hθ(

x)=θ0

+θ1x。

損失函式(loss function):xi,

yi)(

i=1,2,...

m),採用線性回歸,損失函式為:

其中xi表示第i個樣本特徵,y

i表示第i個樣本對應的輸出,hθ(

xi)為假設函式(擬合函式)。   

機器學習系列之梯度下降法

梯度下降法,又叫最速下降法,是一種最優化演算法。它用負梯度方向為搜尋方向的,最速下降法越接近目標值,步長越小,前進越慢。梯度下降法的計算過程就是沿著梯度下降的方向求解極小值。亦可以沿著梯度上公升的方向求解極大值 它的迭代公式為 ak 1 a k k s k 式1 1 其中,s k 代表的是梯度的負方...

機器學習 梯度下降

參照 機器學習 這本書的第4.4.3節。一.解決目標及情景假設 當給定一些資料,輸入x向量已知,輸出y也已知,設計乙個線性函式y h x 去擬合這些資料。既然是線性函式,在此不妨設為h x w0 x0 w1 x1。此時我們遇到的問題就是如何確定w0和w1這兩個引數,即w w0,w1 這個向量。既然是...

機器學習 梯度下降

梯度下降法 如果讀者對方向導數和梯度的定義不太了解,請先閱讀上篇文章 方向導數與梯度 前些時間接觸了機器學習,發現梯度下降法是機器學習裡比較基礎又比較重要的乙個求最小值的演算法。梯度下降演算法過程如下 1 隨機初始值 2 迭代 在這裡,簡單談一下自己對梯度下降法的理解。首先,要明確梯度是乙個向量,是...