機器學習（九）梯度下降演算法

梯度：是乙個向量，其方向上的方向導數最大，其大小正好是此最大方向導數。

關於梯度的更多介紹請看：如何直觀形象的理解方向導數與梯度以及它們之間的關係？

乙個標量函式φ的梯度記為：

在三維直角座標系中表示為：

梯度下降法（英語：gradient descent）是乙個一階最優化演算法，通常也稱為最速下降法。要使用梯度下降法找到乙個函式的區域性極小值，必須向函式上當前點對應梯度（或者是近似梯度）的反方向的規定步長距離點進行迭代搜尋。如果相反地向梯度正方向迭代進行搜尋，則會接近函式的區域性極大值點；這個過程則被稱為梯度上公升法。

梯度下降法基於以下觀察的：如果實值函式f(x)在a處可微且有定義，那麼函式f(x)在a點沿著梯度相反的方向-▽f(a)下降最快。

因而，假設

對於γ>0為乙個夠小數值時成立，那麼f(a)≥f(b)。

考慮到這一點，我們可以從函式f的區域性極小值的初始估計x

0出發，考慮到如下序列x

0,x1,x

2,....使得：

因此可以得到

如果順利的話，序列(x

n)收斂到期望的極值。注意每次迭代的γ可以改變。

下面的這張展示了這一過程，這裡假設f定義在平面上，並且函式影象是乙個碗形。藍色的曲線是等高線，即函式f為常數的集合構成的曲線。紅色的箭頭指向該點梯度的反方向。（一點處的梯度方向與通過該點的等高線垂直）。沿著梯度下降方向，將最終到達碗底，即函式f值最小的點。

梯度下降法處理一些複雜的非線性函式會出現問題，例如rosenbrock函式

其最小值在(x,y)=(1,1)處，數值為f(x,y)=0。優化過程是之字形的向極小值點靠近，速度非常緩慢。

參考：

機器學習（九）梯度下降演算法

機器學習演算法（四）梯度下降法

機器學習（三）梯度下降法

機器學習系列3 梯度下降

機器學習（九）梯度下降演算法

機器學習演算法（四） 梯度下降法

機器學習（三） 梯度下降法

機器學習系列3 梯度下降

相關推薦

機器學習演算法（四）梯度下降法

機器學習（三）梯度下降法