深度學習使用Adam無法收斂到最優解

比賽實踐中，往往都是先用adam實現快速收斂後，再使用sgd達到最優解，為什麼adam無法直接達到最優解呢？

強烈推薦:

關於這個問題的綜述：

iclr 2018 的一篇**認為是因為使用了指數滑動平均:

現在的最佳做法：

1. 最新版本keras的adam實現中已經支援了amsgrad演算法

keras.optimizers.adam(lr=0.0012, beta_1=0.9, beta_2=0.9, epsilon=1e-08, amsgrad=true)

2. 依然使用adam+sgd(with momentum)的方法

從特徵表示到深度學習

最近一直在學習特徵表達和學習的理論基礎，從稀疏編碼到卷積神經網路，直到最近很火的深度學習，感覺有那麼些啟發。特此記錄一下學習新得。影象特徵的表達從開始的畫素表示，到後來畫素特徵組成的特徵描述子 sift，surf，hog等都是為了尋找最有效的資訊表達，如何將特徵進行加工和處理得到更加深入層次的表示...

從感知機到深度學習

一從感知機到深度學習第乙個正式的神經元模型是由沃倫麥卡洛克 warren maculloach 和沃爾特皮茨 walter pitts 於1943.年提出的。這個模型看起來很像組成計算機的邏輯門。麥克洛克皮茨神經元做不了的事情就是學習。為此我們需要對神經元之間的連線給予不同的權重，這就是所...

2 10 是否要使用端到端的深度學習？

假設你正在搭建乙個機器學習系統，你要決定是否使用端對端方法，我們來看看端到端深度學習的一些優缺點，這樣你就可以根據一些準則，判斷你的應用程式是否有希望使用端到端方法。優點端到端深度學習的第二個好處就是這樣，所需手工設計的元件更少，所以這也許能夠簡化你的設計工作流程，你不需要花太多時間去手工設計功能...

深度學習 使用Adam無法收斂到最優解

從特徵表示到深度學習

從感知機到深度學習

2 10 是否要使用端到端的深度學習？

相關推薦

深度學習使用Adam無法收斂到最優解