1 6梯度提公升的優化演算法實現概況

以下演算法均為通過不同的方法調整學習率learningrate的過程

相比批量梯度下降法，隨機梯度下降法的每次更新，是對資料集中的乙個樣本（x，y）求出罰函式，然後對其求相應的偏導數：

小批量梯度下降法集合了上述兩種方法的優勢，在每次更新中，對 n 個樣本構成的一批資料，計算罰函式 j(θ)，並對相應的引數求導：

這種方法，(a) 降低了更新引數的方差（variance），使得收斂過程更為穩定；(b) 能夠利用最新的深度學習程式庫中高度優化的矩陣運算器，能夠高效地求出每小批資料的梯度。通常一小批資料含有的樣本數量在 50 至 256 之間，但對於不同的用途也會有所變化。小批量梯度下降法，通常是我們訓練神經網路的首選演算法。同時，有時候我們也會使用隨機梯度下降法，來稱呼小批量梯度下降法（譯者注：在下文中，我們就用 sgd 代替隨機梯度下降法）。

下降速度

計算m有momentum屬性（慣性屬性）+計算v時有adagrad屬性（阻力屬性），更新引數時將m和v都考慮進去

在大多數情況下使用adam都能又快又好的達到目標

1 6梯度提公升的優化演算法實現概況

04 06 梯度提公升樹

Pytorch實戰二梯度及優化演算法

最優化演算法（一）梯度下降法

1 6梯度提公升的優化演算法實現概況

04 06 梯度提公升樹

Pytorch實戰 二 梯度及優化演算法

最優化演算法（一） 梯度下降法

相關推薦

Pytorch實戰二梯度及優化演算法

最優化演算法（一）梯度下降法