深度學習優化函式

2021-09-26 08:08:40 字數 1899 閱讀 9859

深度學習優化函式詳解系列目錄

本系列課程**,歡迎star:

深度學習優化函式詳解(0)-- 線性回歸問題

深度學習優化函式詳解(1)-- gradient descent 梯度下降法

深度學習優化函式詳解(2)-- sgd 隨機梯度下降

深度學習優化函式詳解(3)-- mini-batch sgd 小批量隨機梯度下降

深度學習優化函式詳解(4)-- momentum 動量法

深度學習優化函式詳解(5)-- nesterov accelerated gradient (nag)

深度學習優化函式詳解(6)-- adagrad

前面的一系列文章的優化演算法有乙個共同的特點,就是對於每乙個引數都用相同的學習率進行更新。但是在實際應用中各個引數的重要性肯定是不一樣的,所以我們對於不同的引數要動態的採取不同的學習率,讓目標函式更快的收斂。

adagrad方法是將每乙個引數的每一次迭代的梯度取平方累加再開方,用基礎學習率除以這個數,來做學習率的動態更新。這個比較簡單,直接上公式。

可以看出收斂速度的確是特別慢(在該資料集下),最重要的原因就是動態學習率處於乙個單向的減小狀態,最後減到近乎為0的狀態。

實驗原始碼:/blob/master/p6 adagrad.py

深度學習優化函式詳解系列目錄

本系列課程**,歡迎star:

深度學習優化函式詳解(0)-- 線性回歸問題

深度學習優化函式詳解(1)-- gradient descent 梯度下降法

深度學習優化函式詳解(2)-- sgd 隨機梯度下降

深度學習優化函式詳解(3)-- mini-batch sgd 小批量隨機梯度下降

深度學習優化函式詳解(4)-- momentum 動量法

深度學習優化函式詳解(5)-- nesterov accelerated gradient (nag)

深度學習優化函式詳解(6)-- adagrad

前面的一系列文章的優化演算法有乙個共同的特點,就是對於每乙個引數都用相同的學習率進行更新。但是在實際應用中各個引數的重要性肯定是不一樣的,所以我們對於不同的引數要動態的採取不同的學習率,讓目標函式更快的收斂。

adagrad方法是將每乙個引數的每一次迭代的梯度取平方累加再開方,用基礎學習率除以這個數,來做學習率的動態更新。這個比較簡單,直接上公式。

可以看出收斂速度的確是特別慢(在該資料集下),最重要的原因就是動態學習率處於乙個單向的減小狀態,最後減到近乎為0的狀態。

實驗原始碼:/blob/master/p6 adagrad.py

深度學習優化

二 損失函式 三 深度學習中遇到的問題 區域性最優 定義 對於目標函式f x 如果f x 在x上的值比在x鄰近的其他點的值更小,那麼f x 可能是乙個區域性最小值 local minimum 如果f x 在x上的值是目標函式在整個定義域上的最小值,那麼f x 是全域性最小值 global minim...

深度學習優化函式第5講

原 2017年08月04日 11 35 26 史丹利復合田 閱讀數 16292 更多分類專欄 深度學習 深度學習優化函式詳解 深度學習優化函式詳解系列目錄 本系列課程 歡迎star 深度學習優化函式詳解 0 線性回歸問題 深度學習優化函式詳解 1 gradient descent 梯度下降法 深度學...

深度學習 啟用函式 損失函式 優化函式的區別

啟用函式 將神經網路上一層的輸入,經過神經網路層的非線性變換轉換後,通過啟用函式,得到輸出。常見的啟用函式包括 sigmoid,tanh,relu等。損失函式 度量神經網路的輸出的 值,與實際值之間的差距的一種方式。常見的損失函式包括 最小二乘損失函式 交叉熵損失函式 回歸中使用的smooth l1...