梯度下降法原理

2021-10-23 01:24:15 字數 3660 閱讀 2182

(該博文為一網友所寫,非常詳細易懂,故搬運過來以後方便回憶學習)

一、為什麼需要梯度下降法

每個演算法模型都有自己的損失函式,而損失函式包含了各個位置上的引數,我們的最終目標都是要找到使模型損失函式盡可能小的引數。

在學習簡單線性回歸時,我們使用最小二乘法來求損失函式的最小值,但是這只是乙個特例。在絕大多數的情況下,損失函式是很複雜的(比如邏輯回歸),根本無法得到引數估計值的表示式。因此需要一種對大多數函式都適用的方法。這就引出了「梯度演算法」。

首先梯度下降(gradient descent, gd),不是乙個機器學習演算法,而是一種基於搜尋的最優化方法。

梯度下降法通過導數告訴我們此時此刻某引數應該朝什麼方向,以怎樣的速度運動,能安全高效降低損失值,朝最小損失值靠攏。

二、什麼是梯度

梯度是乙個向量,具有大小和方向

梯度下降法的基本思想可以模擬為乙個下山的過程。

假設這樣乙個場景:乙個人被困在山上,需要從山上下來(找到山的最低點,也就是山谷)。但此時山上的濃霧很大,導致可視度很低;因此,下山的路徑就無法確定,必須利用自己周圍的資訊一步一步地找到下山的路。這個時候,便可利用梯度下降演算法來幫助自己下山。怎麼做呢,首先以他當前的所處的位置為基準,尋找這個位置最陡峭的地方,然後朝著下降方向走一步,然後又繼續以當前位置為基準,再找最陡峭的地方,再走直到最後到達最低處;同理上山也是如此,只是這時候就變成梯度上公升演算法了

簡單的來說,多元函式的導數(derivative)就是梯度(gradient),分別對每個變數進行微分,然後用逗號分割開,梯度是用括號包括起來,說明梯度其實乙個向量,我們說損失函式l的梯度為:

首先,我們有乙個可微分的函式。這個函式就代表著一座山。我們的目標就是找到這個函式的最小值,也就是山底。根據之前的場景假設,最快的下山的方式就是找到當前位置最陡峭的方向,然後沿著此方向向下走,對應到函式中,就是找到給定點的梯度 ,然後朝著梯度相反的方向,就能讓函式值下降的最快!因為梯度的方向就是函式之變化最快的方向

所以,我們重複利用這個方法,反覆求取梯度,最後就能到達區域性的最小值,這就類似於我們下山的過程。而求取梯度就確定了最陡峭的方向,也就是場景中測量方向的手段。那麼為什麼梯度的方向就是最陡峭的方向呢?

2.2.1 微分

看待微分的意義,可以有不同的角度,最常用的兩種是:

函式影象中,某點的切線的斜率

函式的變化率

幾個微分的例子:

1.單變數的微分,函式只有乙個變數時

2.多變數的微分,當函式有多個變數的時候,即分別對每個變數進行求微分

2.2.2 梯度

梯度實際上就是多變數微分的一般化。

下面這個例子:

我們可以看到,梯度就是分別對每個變數進行微分,然後用逗號分割開,梯度是用<>包括起來,說明梯度其實乙個向量。

梯度是微積分中乙個很重要的概念,之前提到過梯度的意義

在單變數的函式中,梯度其實就是函式的微分,代表著函式在某個給定點的切線的斜率

在多變數函式中,梯度是乙個向量,向量有方向,梯度的方向就指出了函式在給定點的上公升最快的方向

**這也就說明了為什麼我們需要千方百計的求取梯度!**我們需要到達山底,就需要在每一步觀測到此時最陡峭的地方,梯度就恰巧告訴了我們這個方向。梯度的方向是函式在給定點上公升最快的方向,那麼梯度的反方向就是函式在給定點下降最快的方向,這正是我們所需要的。所以我們只要沿著梯度的方向一直走,就能走到區域性的最低點!

2.3 數學解釋

首先給出數學公式:

此公式的意義是:j是關於θ的乙個函式,我們當前所處的位置為θ0點,要從這個點走到j的最小值點,也就是山底。首先我們先確定前進的方向,也就是梯度的反向,然後走一段距離的步長,也就是α,走完這個段步長,就到達了θ1這個點!

2.3.1 α

α在梯度下降演算法中被稱作為學習率或者步長,意味著我們可以通過α來控制每一步走的距離,以保證不要步子跨的太大扯著蛋,哈哈,其實就是不要走太快,錯過了最低點。同時也要保證不要走的太慢,導致太陽下山了,還沒有走到山下。所以α的選擇在梯度下降法中往往是很重要的!α不能太大也不能太小,太小的話,可能導致遲遲走不到最低點,太大的話,會導致錯過最低點!

2.3.2 梯度要乘以乙個負號

梯度前加乙個負號,就意味著朝著梯度相反的方向前進!我們在前文提到,梯度的方向實際就是函式在此點上公升最快的方向!而我們需要朝著下降最快的方向走,自然就是負的梯度的方向,所以此處需要加上負號;那麼如果時上坡,也就是梯度上公升演算法,當然就不需要新增負號了。

例項我們已經基本了解了梯度下降演算法的計算過程,那麼我們就來看幾個梯度下降演算法的小例項,首先從單變數的函式開始,然後介紹多變數的函式。

3.1 單變數函式的梯度下降

我們假設有乙個單變數的函式

函式的微分,直接求導就可以得到

初始化,也就是起點,起點可以隨意的設定,這裡設定為1

學習率也可以隨意的設定,這裡設定為0.4

梯度下降計算公式

3.2 多變數函式的梯度下降

我們假設有乙個目標函式

現在要通過梯度下降法計算這個函式的最小值。我們通過觀察就能發現最小值其實就是 (0,0)點。但是接下來,我們會從梯度下降演算法開始一步步計算到這個最小值!

我們假設初始的起點為:

關於引數學習率問題 :

首先,學習率不能太大。如果學習率太大,那麼有可能會「邁過」最低點,從而發生「搖擺」的現象(不收斂),無法得到最低點

其次,學習率又不能太小。如果太小,會導致每次迭代時,引數幾乎不變化,收斂學習速度變慢,使得演算法的效率降低,需要很長時間才能達到最低點

梯度演算法有乙個比較致命的問題

從理論上,它只能保證達到區域性最低點,而非全域性最低點。在很多複雜函式中有很多極小值點,我們使用梯度下降法只能得到區域性最優解,而不能得到全域性最優解。那麼對應的解決方案如下:首先隨機產生多個初始引數集,即多組;然後分別對每個初始引數集使用梯度下降法,直到函式值收斂於某個值;最後從這些值中找出最小值,這個找到的最小值被當作函式的最小值。當然這種方式不一定能找到全域性最優解,但是起碼能找到較好的。

對於梯度下降來說,初始點的位置,也是乙個超引數。

梯度下降法原理

求解機器學習演算法的模型引數,常用兩種方法 梯度下降,最小二乘法。此外還有牛頓法和擬牛頓法。1.梯度 對多元函式引數求偏導,把求得的偏導寫成向量形式。比如 f x,y 對x,y求偏導,梯度就是 f x,f y t。2.梯度下降法詳解 梯度下降法有代數法和矩陣法兩種表示形式。2.1 代數法 1.先決條...

梯度下降法和隨機梯度下降法

批量梯度下降法 batch gradient descent 在更新引數時使用所有的樣本來進行更新 隨機梯度下降法 stochastic gradient descent 求梯度時沒有用所有的m個樣本的資料,而是僅僅選取乙個樣本j來求梯度。小批量梯度下降法 mini batch gradient d...

梯度下降法

梯度下降法 是乙個一階 最優化演算法 通常也稱為 最速下降法 我之前也沒有關注過這類演算法。最近,聽史丹福大學的機器學習課程時,碰到了用梯度下降演算法求解線性回歸問題,於是看了看這類演算法的思想。今天只寫了一些入門級的知識。我們知道,函式的曲線如下 程式設計實現 c code cpp view pl...