更好的優化

這次介紹幾個更好的優化，回憶一下損失函式梯度優化一節我們所介紹的內容，我們介紹了最簡單的優化演算法：隨機梯度下降（sgd）。然而，這個演算法難以處理一些比較奇怪的情況，讓我們來看看。

引例損失函式的梯度登高表述如下圖等高線，在這類函式上如果執行sgd，由於在豎直方向上梯度比較高，所以步長*梯度帶來的在此方向的移動距離會很大，對應的水平距離移動就很小，結果就會造成像圖中紅線這樣的又是乙個zig-zag的執行軌跡。這並不是乙個好現象。

再考慮乙個問題，sgd是嚴格按照梯度的常數倍在某乙個維度上前進，考慮其在區域性最低點和鞍點的情況，該維度梯度為0，就意味著在這個維度上不動了，然後就認定它是最小值。這顯然也是錯誤的。

因此需要考慮乙個新的優化演算法。

sgd+momentum 帶動量的sgd

乙個思路是：在sgd的基礎上，為速度變化量加乙個動量項，這個動量項的概念是摩擦係數與先前速度的乘積，這樣一來，需要在dx的基礎上加乙個摩擦係數乘以原速度。此外，摩擦係數可以設定為0.9或者0.99，這樣一來，就保證了下降時速度的大小和方向並不僅僅取決於當前位點的屬性。

接下來介紹乙個新的動量——nesterov動量，它與上述規定的動量有乙個先後順序的變化。表述如下：

此外，這兩個動量也有乙個比較簡單的以二維為例子的**對比。如圖可見，左圖中，實際步進是原速度與出發點之間的向量和；右圖中，首先**按原速度前進，到達新位點後的梯度，沿而後向梯度方向與原速度的向量和方向走，得到實際步進。

adagrad的核心思路是：在運算的過程中加入乙個梯度平方項，在計算步進的時候，在學習率乘以dx的基礎上，再除以乙個梯度平方項的方根。

這樣帶來了什麼好處呢？首先，在不同維度上，如果某一方向上的梯度非常大，那麼它對grad_squared的貢獻就會很大，那麼對應的這一步的步進就非常小，同樣的對於梯度小的情況也是會使得步進非常大。其次，隨著時間的增大，它的等效學習率會越來越小。

再返回來，考慮一些前面沒有解決的問題。adagrad能夠很好的解決像這樣的凸問題，但是非凸問題情況下，比如說在區域性最小值，它就又會被卡住。因此，繼續介紹下乙個演算法來解決這一問題。

rmsprop

為什麼它會在區域性最小值處被卡呢？因為感覺上來講，它太受本地點的拘束了。解決它的方法，應該也是利用和動量一樣的思路，在軌跡中離本地點時間越久遠，對當前運動狀態影響越小，因此乘以乙個衰減係數dacay_rate，不過從它的形式來講，叫做衰減權值好像更好一些。一般取值為0.9或者0.99，剩下的權值再分給dx * dx項。

實驗表明，它的效果與sgd+m相似，但是路徑截然不同。**如下：

既然sgd+m與rmsprop都不錯，那麼我們想要試試更好的優化，就結合它們！

解釋一下，回憶sgd+momentum，其動量的計算是vx=vx*rho+dx，我們將其改寫成了權值的形式，這就是第一動量。第二動量的公式與rmsprop相似。在此演算法中，考慮一下第一步，我們將一二動量初始為0，那麼一開始的幾步，它的步長會驚人的長，要規避這個現象，adam演算法加入了偏置校正項。

即隨著時間的推移，校正力度會逐漸減小，從而變回原值，這就很好的規避了起初幾步的步長過長的情況。此外，許多情況下，adam演算法的初始引數設定一般為 beta1=0.9 beta2=0.999 learing_rate=1e-3 / 5e-4。

更好的優化

千萬級的大表！MySQL這樣優化更好

千萬級的大表！MySQL這樣優化更好

更好的規劃人生

更好的優化

千萬級的大表！MySQL這樣優化更好

千萬級的大表！MySQL這樣優化更好

更好的規劃人生

相關推薦