4 1 卷積神經網路調參 adagrad adam

2021-09-11 12:48:54 字數 1268 閱讀 4686

我們之前將了隨機梯度下降和動量梯度下降,不過,還有很多其他的優化演算法可以使得模型穩定。

先來回顧隨機梯度下降和動量梯度下降

隨機梯度下降有兩個問題:區域性極值問題和saddle point 問題,動量梯度下降可以一定程度上解決這兩個問題

因為他可以使用之前積累的梯度方向。

不過這兩個方法還有其他的兩個問題:

針對這兩個問題,還有哪些其他的演算法呢?

adagrad

學習率是逐漸衰減的,用以往梯度的平方和作為學習率的分母,從而使得整個學習率隨著訓練次數的增加而越來越小,這樣也擺脫了學習率對初始值的依賴

grad_squared = 0 

while true:

dx = compute_gradient(x)

grad_squared += dx ** 2

# + 1e-7 加乙個比較小的值以防止初始值為0

x -= learning_rate * dx / (np.sqrt(grad_squared) + 1e-7)

複製**

*   優點

* 前期, regularizer較小,放大梯度

* 後期, regularizer較大,縮小梯度

* 梯度隨訓練次數降低(可以防止一直跳過極值區域)

* 每個分量有不同的學習率

* 缺點

* 學習率設定太大,導致regularizer影響過於敏感

* 後期,regularizer累積值太大,提前結束訓練

複製**

rmsprop

grad_squared = 0 

while true:

dx = compute_gradient(x)

# 平方和變成了平均值

grad_squared += decay_rate * grad_squared + (1 - decay_rate) * (dx ** 2)

x -= learning_rate * dx / (np.sqrt(grad_squared) + 1e-7)

複製**

adam

adam結合了momentum(動量梯度下降)(學習穩定)和adagrad(可以隨著訓練次數和維度的變化而變化)的優點

[上傳失敗...(image-9a19d6-1538918434302)]

校準的意義在於通過這種方式使得開始的時候first_moment和second_moent變的相對大一些來加速訓練

《1。卷積神經網路》

1.簡述卷積的基本操作,並分析其與全連線層的區別 答 具有區域性連線和權值共享的特點。卷積操作能夠在輸出資料中大致保持輸入資料的結構資訊 2.在卷積神經網路中,如何計算各層的感受野大小?答 3.卷積層的輸出尺寸 參數量和計算量 答 輸出尺寸 1.簡述分組卷積及其應用場景 答 分組卷積就是將輸入通道和...

卷積神經網路 1 1 卷積核

卷積神經網路中卷積核的作用是提取影象更高維的特徵,乙個卷積核代表一種特徵提取方式,對應產生乙個特徵圖,卷積核的尺寸對應感受野的大小。經典的卷積示意圖如下 5 5的影象使用3 3的卷積核進行卷積,結果產生3 3 5 3 1 的特徵影象。卷積核的大小一般是 2n 1 2n 1 的奇數乘奇數大小 n 1 ...

卷積神經網路 1 1 卷積核

卷積神經網路中卷積核的作用是提取影象更高維的特徵,乙個卷積核代表一種特徵提取方式,對應產生乙個特徵圖,卷積核的尺寸對應感受野的大小。經典的卷積示意圖如下 5 5的影象使用3 3的卷積核進行卷積,結果產生3 3 5 3 1 的特徵影象。卷積核的大小一般是 2n 1 2n 1 的奇數乘奇數大小 n 1 ...