優化演算法高階筆記

adagrad演算法會使用乙個小批量隨機梯度 gt 按元素平方的累加變數 st 。在時間步0，adagrad將 s0 中每個元素初始化為0。在時間步 t ，首先將小批量隨機梯度 gt 按元素平方後累加到變數 st ：

st←st−1+gt⊙gt,

其中 ⊙ 是按元素相乘。接著，我們將目標函式自變數中每個元素的學習率通過按元素運算重新調整一下：

xt←xt−1−ηst+ϵ−−−−−√⊙gt,

其中 η 是學習率， ϵ 是為了維持數值穩定性而新增的常數，如 10−6 。這裡開方、除法和乘法的運算都是按元素運算的。這些按元素運算使得目標函式自變數中每個元素都分別擁有自己的學習率。

feature

需要強調的是，小批量隨機梯度按元素平方的累加變數 st 出現在學習率的分母項中。因此，如果目標函式有關自變數中某個元素的偏導數一直都較大，那麼該元素的學習率將下降較快；反之，如果目標函式有關自變數中某個元素的偏導數一直都較小，那麼該元素的學習率將下降較慢。然而，由於 st 一直在累加按元素平方的梯度，自變數中每個元素的學習率在迭代過程中一直在降低（或不變）。所以，當學習率在迭代早期降得較快且當前解依然不佳時，adagrad演算法在迭代後期由於學習率過小，可能較難找到乙個有用的解。

優化演算法高階筆記

高階優化演算法

演算法競賽高階指南筆記

Mysql高階高階（sql優化）

優化演算法高階筆記

高階優化演算法

演算法競賽高階指南筆記

Mysql高階高階（sql優化）

相關推薦