深度學習優化函式

2021-09-26 08:08:40 字數 1899 閱讀 9859

深度學習優化函式詳解系列目錄

本系列課程**，歡迎star：

深度學習優化函式詳解（0）-- 線性回歸問題

深度學習優化函式詳解（1）-- gradient descent 梯度下降法

深度學習優化函式詳解（2）-- sgd 隨機梯度下降

深度學習優化函式詳解（3）-- mini-batch sgd 小批量隨機梯度下降

深度學習優化函式詳解（4）-- momentum 動量法

深度學習優化函式詳解（5）-- nesterov accelerated gradient (nag)

深度學習優化函式詳解（6）-- adagrad

前面的一系列文章的優化演算法有乙個共同的特點，就是對於每乙個引數都用相同的學習率進行更新。但是在實際應用中各個引數的重要性肯定是不一樣的，所以我們對於不同的引數要動態的採取不同的學習率，讓目標函式更快的收斂。

adagrad方法是將每乙個引數的每一次迭代的梯度取平方累加再開方，用基礎學習率除以這個數，來做學習率的動態更新。這個比較簡單，直接上公式。

可以看出收斂速度的確是特別慢（在該資料集下），最重要的原因就是動態學習率處於乙個單向的減小狀態，最後減到近乎為0的狀態。

實驗原始碼：/blob/master/p6 adagrad.py

深度學習優化函式詳解系列目錄

本系列課程**，歡迎star：

深度學習優化函式詳解（0）-- 線性回歸問題

深度學習優化函式詳解（1）-- gradient descent 梯度下降法

深度學習優化函式詳解（2）-- sgd 隨機梯度下降

深度學習優化函式詳解（3）-- mini-batch sgd 小批量隨機梯度下降

深度學習優化函式詳解（4）-- momentum 動量法

深度學習優化函式詳解（5）-- nesterov accelerated gradient (nag)

深度學習優化函式詳解（6）-- adagrad

前面的一系列文章的優化演算法有乙個共同的特點，就是對於每乙個引數都用相同的學習率進行更新。但是在實際應用中各個引數的重要性肯定是不一樣的，所以我們對於不同的引數要動態的採取不同的學習率，讓目標函式更快的收斂。

adagrad方法是將每乙個引數的每一次迭代的梯度取平方累加再開方，用基礎學習率除以這個數，來做學習率的動態更新。這個比較簡單，直接上公式。

可以看出收斂速度的確是特別慢（在該資料集下），最重要的原因就是動態學習率處於乙個單向的減小狀態，最後減到近乎為0的狀態。

實驗原始碼：/blob/master/p6 adagrad.py

深度學習優化

二損失函式三深度學習中遇到的問題區域性最優定義對於目標函式f x 如果f x 在x上的值比在x鄰近的其他點的值更小，那麼f x 可能是乙個區域性最小值 local minimum 如果f x 在x上的值是目標函式在整個定義域上的最小值，那麼f x 是全域性最小值 global minim...

深度學習優化函式第5講

原 2017年08月04日 11 35 26 史丹利復合田閱讀數 16292 更多分類專欄深度學習深度學習優化函式詳解深度學習優化函式詳解系列目錄本系列課程歡迎star 深度學習優化函式詳解 0 線性回歸問題深度學習優化函式詳解 1 gradient descent 梯度下降法深度學...

深度學習啟用函式損失函式優化函式的區別

啟用函式將神經網路上一層的輸入，經過神經網路層的非線性變換轉換後，通過啟用函式，得到輸出。常見的啟用函式包括 sigmoid,tanh,relu等。損失函式度量神經網路的輸出的值，與實際值之間的差距的一種方式。常見的損失函式包括最小二乘損失函式交叉熵損失函式回歸中使用的smooth l1...