4 1 卷積神經網路調參 adagrad adam

我們之前將了隨機梯度下降和動量梯度下降，不過，還有很多其他的優化演算法可以使得模型穩定。

先來回顧隨機梯度下降和動量梯度下降

隨機梯度下降有兩個問題：區域性極值問題和saddle point 問題，動量梯度下降可以一定程度上解決這兩個問題

因為他可以使用之前積累的梯度方向。

不過這兩個方法還有其他的兩個問題：

針對這兩個問題，還有哪些其他的演算法呢?

adagrad

學習率是逐漸衰減的，用以往梯度的平方和作為學習率的分母，從而使得整個學習率隨著訓練次數的增加而越來越小，這樣也擺脫了學習率對初始值的依賴

grad_squared = 0 
while true:
dx = compute_gradient(x)
grad_squared += dx ** 2
# + 1e-7 加乙個比較小的值以防止初始值為0
x -= learning_rate * dx / (np.sqrt(grad_squared) + 1e-7)
複製**

* 優點 * 前期, regularizer較小,放大梯度 * 後期, regularizer較大,縮小梯度 * 梯度隨訓練次數降低（可以防止一直跳過極值區域） * 每個分量有不同的學習率 * 缺點 * 學習率設定太大，導致regularizer影響過於敏感 * 後期，regularizer累積值太大，提前結束訓練

複製**

rmsprop

grad_squared = 0 
while true:
dx = compute_gradient(x)
# 平方和變成了平均值
grad_squared += decay_rate * grad_squared + (1 - decay_rate) * (dx ** 2)
x -= learning_rate * dx / (np.sqrt(grad_squared) + 1e-7)
複製**

adam

adam結合了momentum（動量梯度下降）（學習穩定）和adagrad（可以隨著訓練次數和維度的變化而變化）的優點

[上傳失敗...(image-9a19d6-1538918434302)]

校準的意義在於通過這種方式使得開始的時候first_moment和second_moent變的相對大一些來加速訓練

《1。卷積神經網路》

1.簡述卷積的基本操作，並分析其與全連線層的區別答具有區域性連線和權值共享的特點。卷積操作能夠在輸出資料中大致保持輸入資料的結構資訊 2.在卷積神經網路中，如何計算各層的感受野大小？答 3.卷積層的輸出尺寸參數量和計算量答輸出尺寸 1.簡述分組卷積及其應用場景答分組卷積就是將輸入通道和...

卷積神經網路 1 1 卷積核

卷積神經網路中卷積核的作用是提取影象更高維的特徵，乙個卷積核代表一種特徵提取方式，對應產生乙個特徵圖，卷積核的尺寸對應感受野的大小。經典的卷積示意圖如下 5 5的影象使用3 3的卷積核進行卷積，結果產生3 3 5 3 1 的特徵影象。卷積核的大小一般是 2n 1 2n 1 的奇數乘奇數大小 n 1 ...

4 1 卷積神經網路調參 adagrad adam

《1。卷積神經網路》

卷積神經網路 1 1 卷積核

卷積神經網路 1 1 卷積核

相關推薦