深度學習優化函式第5講

2021-09-27 04:28:27 字數 2286 閱讀 2083

原

2023年08月04日 11:35:26

史丹利復合田

閱讀數 16292

更多分類專欄：

深度學習

深度學習優化函式詳解

深度學習優化函式詳解系列目錄

本系列課程**，歡迎star：

深度學習優化函式詳解（0）-- 線性回歸問題

深度學習優化函式詳解（1）-- gradient descent 梯度下降法

深度學習優化函式詳解（2）-- sgd 隨機梯度下降

深度學習優化函式詳解（3）-- mini-batch sgd 小批量隨機梯度下降

深度學習優化函式詳解（4）-- momentum 動量法

深度學習優化函式詳解（5）-- nesterov accelerated gradient (nag)

深度學習優化函式詳解（6）-- adagrad

↑這是momentum下降法示意圖

↑這是nag下降法示意圖

看上面一張圖仔細想一下就可以明白，nesterov動量法和經典動量法的差別就在b點和c點梯度的不同。

上圖直觀的解釋了nag的全部內容。

第一次看到nag的梯度下降公式的時候我是懵的，梯度下降的流程比較明白，公式上不太理解。後來推導了好半天才得到nag的公式，下面就把我推導的過程寫出來。我推導公式的過程完全符合上面nag的示意圖，可以對比參考。

記v tv

↑ 這是nesterov方法

↑ 這是動量法（momentum)

沒有對比就沒有傷害，nag方法收斂速度明顯加快。波動也小了很多。實際上nag方法用到了二階資訊，所以才會有這麼好的結果。

深度學習優化函式詳解系列目錄

本系列課程**，歡迎star：

深度學習優化函式詳解（0）-- 線性回歸問題

深度學習優化函式詳解（1）-- gradient descent 梯度下降法

深度學習優化函式詳解（2）-- sgd 隨機梯度下降

深度學習優化函式詳解（3）-- mini-batch sgd 小批量隨機梯度下降

深度學習優化函式詳解（4）-- momentum 動量法

深度學習優化函式詳解（5）-- nesterov accelerated gradient (nag)

深度學習優化函式詳解（6）-- adagrad

↑這是momentum下降法示意圖

↑這是nag下降法示意圖

看上面一張圖仔細想一下就可以明白，nesterov動量法和經典動量法的差別就在b點和c點梯度的不同。

上圖直觀的解釋了nag的全部內容。

第一次看到nag的梯度下降公式的時候我是懵的，梯度下降的流程比較明白，公式上不太理解。後來推導了好半天才得到nag的公式，下面就把我推導的過程寫出來。我推導公式的過程完全符合上面nag的示意圖，可以對比參考。

記v tv

↑ 這是nesterov方法

↑ 這是動量法（momentum)

沒有對比就沒有傷害，nag方法收斂速度明顯加快。波動也小了很多。實際上nag方法用到了二階資訊，所以才會有這麼好的結果。

第5講 zend原理深度剖析

1.檔案.htaccess的重寫機制如果 apache 開啟了重寫機制，則在 apache 啟動時，會去找的根目錄有沒有 htaccess 檔案，如果有則按 htaccess 檔案中的規則，沒有則預設。在 apache 的底層中有如下方法所以讀取的是根目錄，命名為 htaccess 的檔案...

深度學習優化函式

深度學習優化函式詳解系列目錄本系列課程歡迎star 深度學習優化函式詳解 0 線性回歸問題深度學習優化函式詳解 1 gradient descent 梯度下降法深度學習優化函式詳解 2 sgd 隨機梯度下降深度學習優化函式詳解 3 mini batch sgd 小批量隨機梯度下降深度學習...

PyTorch 深度學習實踐第2講

第2講 linear model 源 b站劉二大人傳送門 pytorch深度學習實踐線性模型說明 1 函式forward 中，有乙個變數w。這個變數最終的值是從for迴圈中傳入的。2 for迴圈中，使用了np.arange。若對numpy不太熟悉，傳送門numpy資料計算從入門到實戰 3 p...