關於怎麼解決過擬合問題

2022-06-23 17:45:08 字數 857 閱讀 7534

該博文分析了模型訓練過程中三種loss不下降的情況,並給出了一些解決的思路。

1 網路層沒有初始化引數

2 超引數設定不合理

2.1 訓練的epoch太少

看到的只是區域性情況,最終要的其實是整體收斂就行,也許訓練100、1000、10000試試?

2.2 學習率過高或者過低?

合適的學習率可以保證每輪完整訓練之後,loss都減小,且能在一段時間後降到一個較小的程度。太小的學習率下loss減小的速度很慢,如果太激進,設定太高的學習率,開始的loss減小速度非常可觀,可是到了某個程度之後就不再下降了,在離最低點一段距離的地方反覆,無法下降了。

3 是否正則化

4 是否批量標準化

參考5 疑問-是否需要更新預訓練嵌入的梯度?

6 網路深度不夠