卷積神經網路之warm up

warm up最初是在resnet網路的**中提到，針對非常深的神經網路為了防止開始學習率過大導致不能擬合的問題。

簡要翻譯：

我們進一步嘗試了n=18的情況，會得到乙個110層的resnet。在這種情況下，使用初始化學習率0.1對於當前網路偏大了，導致不能夠收斂。因此我們使用0.01的學習率開始對訓練進行預熱，直到訓練的錯誤率低於80%（差不多400個迭代），然後改回0.1的學習率，繼續訓練。剩下的訓練和之前做法一致。這個110層的網路收斂的不錯。

上面介紹的warmup有乙個缺點就是學習率從乙個比較小的值一下子變成比較大的值，可能會導致訓練誤差忽然變大。18年facebook提出了gradual warmup，從乙個小的學習率開始，每個迭代增大一點，直到最初設定的學習率。

根據增大到最大值後學習率的變化又可以分為這幾類：

** 靜態warmup**

學習率增大到最大後就不再變化。

線性warmup

學習率從非常小的值增大到預設值後然後線性減小

** cos減小**

學習率從非常小的值增大到預設值後然後再按照cos函式減小

卷積神經網路之warm up

神經網路卷積神經網路

神經網路卷積神經網路

卷積神經網路有趣的卷積神經網路

卷積神經網路之warm up

神經網路 卷積神經網路

神經網路 卷積神經網路

卷積神經網路 有趣的卷積神經網路

相關推薦

神經網路卷積神經網路

神經網路卷積神經網路

卷積神經網路有趣的卷積神經網路