深度學習 使用Adam無法收斂到最優解

2021-08-19 02:28:07 字數 387 閱讀 8219

比賽實踐中,往往都是先用adam實現快速收斂後,再使用sgd達到最優解,為什麼adam無法直接達到最優解呢?

強烈推薦:

關於這個問題的綜述:

iclr 2018 的一篇**認為是因為使用了指數滑動平均:

現在的最佳做法:

1. 最新版本keras的adam實現中已經支援了amsgrad演算法

keras.optimizers.adam(lr=0.0012, beta_1=0.9, beta_2=0.9, epsilon=1e-08, amsgrad=true)

2. 依然使用adam+sgd(with momentum)的方法

從特徵表示到深度學習

最近一直在學習特徵表達和學習的理論基礎,從稀疏編碼到卷積神經網路,直到最近很火的深度學習,感覺有那麼些啟發。特此記錄一下學習新得。影象特徵的表達從開始的畫素表示,到後來畫素特徵組成的特徵描述子 sift,surf,hog等 都是為了尋找最有效的資訊表達,如何將特徵進行加工和處理得到更加深入層次的表示...

從感知機到深度學習

一 從感知機到深度學習 第乙個正式的神經元模型是由沃倫 麥卡洛克 warren maculloach 和沃爾特 皮茨 walter pitts 於1943.年提出的。這個模型看起來很像組成計算機的邏輯門。麥克洛克 皮茨神經元做不了的事情就是學習。為此我們需要對神經元之間的連線給予不同的權重,這就是所...

2 10 是否要使用端到端的深度學習?

假設你正在搭建乙個機器學習系統,你要決定是否使用端對端方法,我們來看看端到端深度學習的一些優缺點,這樣你就可以根據一些準則,判斷你的應用程式是否有希望使用端到端方法。優點 端到端深度學習的第二個好處就是這樣,所需手工設計的元件更少,所以這也許能夠簡化你的設計工作流程,你不需要花太多時間去手工設計功能...