深度學習優化函式第5講

2021-09-27 04:28:27 字數 2286 閱讀 2083

2023年08月04日 11:35:26

史丹利復合田

閱讀數 16292

更多分類專欄:

深度學習

深度學習優化函式詳解

深度學習優化函式詳解系列目錄

本系列課程**,歡迎star:

深度學習優化函式詳解(0)-- 線性回歸問題

深度學習優化函式詳解(1)-- gradient descent 梯度下降法

深度學習優化函式詳解(2)-- sgd 隨機梯度下降

深度學習優化函式詳解(3)-- mini-batch sgd 小批量隨機梯度下降

深度學習優化函式詳解(4)-- momentum 動量法

深度學習優化函式詳解(5)-- nesterov accelerated gradient (nag)

深度學習優化函式詳解(6)-- adagrad

↑這是momentum下降法示意圖

↑這是nag下降法示意圖

看上面一張圖仔細想一下就可以明白,nesterov動量法和經典動量法的差別就在b點和c點梯度的不同。

上圖直觀的解釋了nag的全部內容。

第一次看到nag的梯度下降公式的時候我是懵的,梯度下降的流程比較明白,公式上不太理解。後來推導了好半天才得到nag的公式,下面就把我推導的過程寫出來。我推導公式的過程完全符合上面nag的示意圖,可以對比參考。

記v tv

↑ 這是nesterov方法

↑ 這是動量法(momentum)

沒有對比就沒有傷害,nag方法收斂速度明顯加快。波動也小了很多。實際上nag方法用到了二階資訊,所以才會有這麼好的結果。

深度學習優化函式詳解系列目錄

本系列課程**,歡迎star:

深度學習優化函式詳解(0)-- 線性回歸問題

深度學習優化函式詳解(1)-- gradient descent 梯度下降法

深度學習優化函式詳解(2)-- sgd 隨機梯度下降

深度學習優化函式詳解(3)-- mini-batch sgd 小批量隨機梯度下降

深度學習優化函式詳解(4)-- momentum 動量法

深度學習優化函式詳解(5)-- nesterov accelerated gradient (nag)

深度學習優化函式詳解(6)-- adagrad

↑這是momentum下降法示意圖

↑這是nag下降法示意圖

看上面一張圖仔細想一下就可以明白,nesterov動量法和經典動量法的差別就在b點和c點梯度的不同。

上圖直觀的解釋了nag的全部內容。

第一次看到nag的梯度下降公式的時候我是懵的,梯度下降的流程比較明白,公式上不太理解。後來推導了好半天才得到nag的公式,下面就把我推導的過程寫出來。我推導公式的過程完全符合上面nag的示意圖,可以對比參考。

記v tv

↑ 這是nesterov方法

↑ 這是動量法(momentum)

沒有對比就沒有傷害,nag方法收斂速度明顯加快。波動也小了很多。實際上nag方法用到了二階資訊,所以才會有這麼好的結果。

第5講 zend原理深度剖析

1.檔案.htaccess的重寫機制 如果 apache 開啟了重寫機制,則在 apache 啟動時,會去找 的根目錄有沒有 htaccess 檔案,如果有則按 htaccess 檔案中的規則,沒有則預設。在 apache 的底層 中有如下方法 所以讀取的是 根目錄,命名為 htaccess 的檔案...

深度學習優化函式

深度學習優化函式詳解系列目錄 本系列課程 歡迎star 深度學習優化函式詳解 0 線性回歸問題 深度學習優化函式詳解 1 gradient descent 梯度下降法 深度學習優化函式詳解 2 sgd 隨機梯度下降 深度學習優化函式詳解 3 mini batch sgd 小批量隨機梯度下降 深度學習...

PyTorch 深度學習實踐 第2講

第2講 linear model 源 b站 劉二大人 傳送門 pytorch深度學習實踐 線性模型 說明 1 函式forward 中,有乙個變數w。這個變數最終的值是從for迴圈中傳入的。2 for迴圈中,使用了np.arange。若對numpy不太熟悉,傳送門numpy資料計算從入門到實戰 3 p...