深度學習 學習率

2021-10-06 19:46:56 字數 2220 閱讀 4333

學習率 (learning rate),控制模型的學習進度: 

學習率 大

學習率 小

學習速度快慢

使用時間點

剛開始訓練時

一定輪數過後

***1.易損失值**;2.易振盪。

1.易過擬合;2.收斂速度慢。

在訓練過程中,一般根據訓練輪數設定動態變化的學習率。

note: 

如果是 遷移學習 ,由於模型已在原始資料上收斂,此時應設定較小學習率 () 在新資料上進行 微調 。

輪數減緩

指數減緩

分數減緩

英文名step decay

exponential decay

decay

方法每n輪學習率減半

學習率按訓練輪數增長指數插值遞減

, 控制減緩幅度, 為訓練輪數

理想情況下 曲線 應該是 滑梯式下降[綠線]: 

曲線 初始時 上揚[紅線]: 

solution:初始 學習率過大 導致 振盪,應減小學習率,並 從頭 開始訓練 。

曲線 初始時 強勢下降 沒多久 歸於水平[紫線]: 

solution:後期 學習率過大 導致 無法擬合,應減小學習率,並 重新訓練 後幾輪 。

曲線 全程緩慢[黃線]: 

solution:初始 學習率過小 導致 收斂慢,應增大學習率,並 從頭 開始訓練 。

即學習率固定,這個是最簡單的學習率變化策略(不變),配置檔案中只需要乙個引數,實際中用得比較少,原因是:為了避免跳過全域性最優,當引數狀態越來越逼近全域性最優點時,我們應該降低學習率。

在迭代固定的次數之後以一定的比例降低學習率,這個策略很常用,是一種離散的學習率變化策略簡單且非常優秀。

表示式為:new_lr = base_lr * (gamma^iter),它符合指數函式的變化規律,是一種連續的學習率變化策略

這種策略的學習率衰減非常快,gamma越大學習率衰減越慢,在caffe中以iter為指數而iter通常非常大,所以學習率衰減仍然非常快。

表示式為:new_lr = base_lr * (1 - iter / maxiter)^power,從表示式可以看出學習率曲線主要由power值控制。當power = 1時,學習率曲線為一條直線。當power < 1時,學習率曲線為凸狀。當power > 1時,學習率曲線為凹狀

在迭代預設的不同次數後以一定的比例降低學習率,這個策略也很常用,也是一種離散的學習率變化策略簡單且非常優秀,與step不同的是學習率發生改變的迭代次數不均勻。

表示式為:new_lr = base_lr * (1 / (1 + exp(-gamma * (iter - stepsize)))),其中,引數gamma控制學習率變化速率,gamma < 0時學習率才會下降。

學習率 (learning rate),控制模型的學習進度: 

學習率 大

學習率 小

學習速度快慢

使用時間點

剛開始訓練時

一定輪數過後

***1.易損失值**;2.易振盪。

1.易過擬合;2.收斂速度慢。

深度學習 學習率 learning rate

學習率 learning rate 控制 模型的學習進度 lr即stride 步長 即反向傳播演算法中的 n n l n n n l n 學習率 大 學習率 小 學習速度快慢 使用時間點 剛開始訓練時 一定輪數過後 1.易損失值 2.易振盪。1.易過擬合 2.收斂速度慢。在訓練過程中,一般根據訓練輪...

深度學習 學習率 learning rate

學習率 learning rate 控制 模型的學習進度 lr即stride 步長 即反向傳播演算法中的 n n l n n n l n 學習率 大 學習率 小 學習速度快慢 使用時間點 剛開始訓練時 一定輪數過後 1.易損失值 2.易振盪。1.易過擬合 2.收斂速度慢。在訓練過程中,一般根據訓練輪...

深度學習 深度學習基礎知識 學習率相關技巧

對不同的網路層數使用不同的學習率,這樣可以防止過擬合,有利於加速學習。週期性學習率 loss的組合進行學習率選取。首先嘗試使用較低學習率來訓練神經網路,以指數形式增加,同時,記錄每個學習率對應的loss值,然後畫出學習率和loss值的關係圖,通過找出學習率最高且loss值人在下降的值來確定最佳學習率...