梯度上公升和梯度下降演算法區別與聯絡

2021-09-30 19:24:22 字數 763 閱讀 5969

函式上當前點對應的梯度方向是增大最快的方向,反方向是減小最快的方向

要計算的是函式的極大值,如最大化似然函式,加上學習率 * 梯度

θ ≔ θ + α * ∇??(?)

要計算的是函式的極小值,如最小化損失函式,減去學習率 * 梯度

θ ≔ θ - α * ∇??(?)

在某些地方可能說是梯度下降,但是用的卻是加法,有兩種解釋:

減號代入了梯度中

梯度下降和梯度上公升本質上是一樣的,將梯度上公升說成了梯度下降

反之亦然

某一點上梯度存在的必要條件:函式h(x)在該點可微且存在定義。

可微:設函式y= f(x),若自變數在點x的改變量δx與函式相應的改變量δy有關係δy=a×δx+ο(δx),其中a與δx無關,則稱函式f(x)在點x可微,並稱aδx為函式f(x)在點x的微分,記作dy,即dy=a×δx,當x= x0時,則記作dy∣x=x0。

可微的必要條件:

若函式在某點可微分,則函式在該點必連續;

若二元函式在某點可微分,則該函式在該點對x和y的偏導數必存在

可微的充分條件:

若函式對x和y的偏導數在這點的某一鄰域內都存在,且均在這點連續,則該函式在這點可微。

靠近極小(大)值時速度減慢;

直線搜尋可能會產生一些問題;

可能會之字形下降(上公升)。

梯度下降?梯度上公升?梯度提公升?

最近被這三個詞搞蒙了。原本沒覺得它們有多難區分,但真要向乙個人解釋清類似 為何要有梯度提公升 這類問題,似乎還是很吃力,從而發現自己其實並沒有完全理解其中的含義。也許根本就不存在什麼 梯度上公升 只有 梯度提公升 罷,但我覺得,至少在中文環境裡,大家越發的喜歡無意識地將這兩個詞分別開來,從而這兩個詞...

根據權威文獻區分梯度上公升與梯度下降

參考 第五頁 the analogy of boosting 9 10 to steepest descent minimization 意思是,梯度提公升法用於最小化函式 由於國內的凸函式是國外的凹函式 國外的凸函式是國內的凹函式。所以可知,上面這句意思是 梯度提公升用於處理國外定義中的凸函式,講...

梯度上公升VS梯度下降,加還是減

梯度下降是一種常用的優化演算法,公式是這樣的 w 1 w e w w 1 w e w 其中,e w e w 是cost函式的梯度,減去這個值和學習率的乘積,就代表沿著最陡峭的面滑向最低點。嗯,沒有問題。可是有一天看到有本書提到梯度上公升,公式是這樣的 w w wf w w w w f w 嗯,也容易...