學習率的作用,學習率衰減,函式

1.學習率的作用

2.學習率衰減常用引數有哪些

3.常見衰減函式

3.1分段常數衰減

3.2指數衰減

3.3自然指數衰減

3.4多項式衰減

3.5余弦衰減

梯度下降法是乙個廣泛被用來最小化模型誤差的引數優化演算法。梯度下降法通過多次迭代，並在每一步中最小化成本函式（cost 來估計模型的引數。學習率 (learning rate)，在迭代過程中會控制模型的學習進度。

在梯度下降法中，都是給定的統一的學習率，整個優化過程中都以確定的步長進行更新，在迭代優化的前期中，學習率較大，則前進的步長就會較長，這時便能以較快的速度進行梯度下降，而在迭代優化的後期，逐步減小學習率的值，減小步長，這樣將有助於演算法的收斂，更容易接近最優解。故而如何對學習率的更新成為了研究者的關注點。在模型優化中，常用到的幾種學習率衰減方法有：分段常數衰減、多項式衰減、指數衰減、自然指數衰減、余弦衰減、線性余弦衰減、雜訊線性余弦衰減

引數名稱

引數說明

learning_rate

初始學習率

global_step

用於衰減計算的全域性步數，非負，用於逐步計算衰減指數

decay_steps

衰減步數，必須是正值，決定衰減週期

decay_rate

衰減率end_learning_rate

最低的最終學習率

cycle

學習率下降後是否重新上公升

alpha

最小學習率

num_periods

衰減余弦部分的週期數

initial_variance

雜訊的初始方差

variance_decay

衰減雜訊的方差

綠色的為學習率隨訓練次數的指數衰減方式，紅色的即為分段常數衰減，它在一定的訓練區間內保持學習率不變。

分段常數衰減、指數衰減、自然指數衰減三種方式的對比圖，紅色的即為分段常數衰減圖，階梯型曲線。藍色線為指數衰減圖，綠色即為自然指數衰減圖，很明可以看到自然指數衰減方式下的學習率衰減程度要大於一般指數衰減方式，有助於更快的收斂

紅色線代表學習率降低至最低後，一直保持學習率不變進行更新，綠色線代表學習率衰減到最低後，又會再次迴圈往復的公升高降低。

紅色即為標準的余弦衰減曲線，學習率從初始值下降到最低學習率後保持不變。藍色的線是線性余弦衰減方式曲線，它是學習率從初始學習率以線性的方式下降到最低學習率值。綠色雜訊線性余弦衰減方式。

學習率的作用,學習率衰減,函式

學習率衰減

學習率衰減 Learning Rate Decay

筆記學習率衰減

學習率的作用,學習率衰減,函式

學習率衰減

學習率衰減 Learning Rate Decay

筆記 學習率衰減

相關推薦

筆記學習率衰減