深度學習 關於負梯度方向,函式值下降最大的思考

2021-10-24 05:35:17 字數 1962 閱讀 8733

負梯度方向是函式值下降最快的方向

我想每乙個接觸接觸機器學習或者深度學習的人都對這句話倒背如流,但是隨著時間的推移,很多概念及其背後的數學原理變得模糊。也是因為面試過程中被問及「為什麼負梯度方向是函式值下降最快的方向?」,所以才突然發現是時候需要鞏固一下這些塵封在腦海深處的知識點了。

什麼是梯度?

首先回顧一下導數、方向導數、偏導數這幾個概念:

導數(數)

導數(導函式值,微商),指的是對於y=f

(x

)y=f(x)

y=f(x)

,當x

xx在某點x

0x_0

x0​處產生增量δ

x\delta

δx時函式值的增量δ

y\delta

δy,若δ

x\delta

δx趨向於0時,δy/

δx

\delta/\delta

δy/δ

x存在,則x

0x_0

x0​處導數f′(

x0

)f'(x_0)

f′(x0​

)為:f ′(

x0)=

lim⁡δx

→0δy

δx

f'(x_0)=\lim_\to}\frac}}

f′(x0​

)=δx

→0lim​δx

δy​方向導數(數)

對於乙個多元函式,如二元函式(函式為曲面),方向導數即沿著某個方向的導數值。

偏導數(數)

偏導數是方向倒數的特例,特指沿著各變數座標軸方向的方向導數。

梯度(向量)

梯度就是多元函式y=f

(x

)y=f(\pmb)

y=f(xx

x)在點p (x

0,x1

,...

)p(x_0,x_1,...)

p(x0​,

x1​,

...)

的各變數在其座標軸方向上的偏導數組成的向量

g ra

df=∂

f(x)

∂x=[

∂f(x

)∂x0

,∂f(

x)∂x

1,..

.]

tgradf =\frac)}}}} =[ \frac )}} }, \frac )}} }, ... ]^t

gradf=

∂***

∂f(x

xx)​

=[∂x

0​∂f

(***

)​,∂

x1​∂

f(xx

x)​,

...]

t梯度是乙個向量,所以梯度是有大小和方向

傳說中的負梯度方向,也就是這個向量的負方向!

那麼進入正題:

為什麼負梯度方向,也就是這個向量的負方向,函式值下降最大呢???

這個問題(尋找函式值下降最快的方向)其實等價於,尋找方向導數最大的方向,而這個方向為什麼就是負梯度方向???

這個我原來一直不理解就在於沒有想到切平面這個概念。一維的是時候,導數對應斜率,可以用切線直觀表達。而到了二維空間,我以為是由經過該點的無數條切線組成,但這些切線並非在同乙個平面上。如果他們都在乙個平面上也就組成了乙個切平面,那麼任意兩個垂直方向的偏導組成的向量能夠得到最大方向倒數的方向也就很容易推導了。

但,為什麼是切平面呢?

曲面的切平面存在性證明

深度學習基礎 梯度下降

梯度檢驗 具體的梯度下降的理論和公式推導,部分部落格已經解釋的很詳盡了,本文更多的在於梯度下降的拓展問題。現有結果表明,在處理複雜任務上,深度網路比淺層的網路有更好的效果。但是,目前優化神經網路的方法都是基於反向傳播的思想,即根據損失函式計算的誤差通過梯度反向傳播的方式,指導深度網路權值的更新優化。...

關於深度學習

一 deep learning的基本思想 假設我們有乙個系統s,它有n層 s1,sn 它的輸入是i,輸出是o,形象地表示為 i s1 s2 sn o,如果輸出o等於輸入i,即輸入i經過這個系統變化之後沒有任何的資訊損失 呵呵,大牛說,這是不可能的。資訊理論中有個 資訊逐層丟失 的說法 資訊處理不等式...

關於深度學習

寫這篇文章其實是個意外,在一本圖形教材裡看到了神經網路,感覺好像以前在機器學習裡見過,就稍微了解了一下。dl的浪潮好像影響很大,之前在知乎上看到很多中小型公司,能組起雲平台的都在做大資料。在這裡我只是想說一下,人工智慧,機器學習,深度學習的區別。詳細資料 我覺得深藍的總結比較準確 機器學習 一種實現...