梯度下降及優化演算法

全量梯度下降法bgd（batch gradient descent）

隨機梯度下降法sgd（stochastic gradient descent）

小批量梯度下降法（mini-batch gradient descent）

momentum梯度下降法

nag梯度下降法

兩者的關係可以這樣理解：隨機梯度下降方法以損失很小的一部分精確度和增加一定數量的迭代次數為代價，換取了總體的優化效率的提公升。增加的迭代次數遠遠小於樣本的數量。

對批量梯度下降法和隨機梯度下降法的總結：

批量梯度下降---最小化所有訓練樣本的損失函式，使得最終求解的是全域性的最優解，即求解的引數是使得風險函式最小，但是對於大規模樣本問題效率低下。

隨機梯度下降---最小化每條樣本的損失函式，雖然不是每次迭代得到的損失函式都向著全域性最優方向，但是大的整體的方向是向全域性最優解的，最終的結果往往是在全域性最優解附近，適用於大規模訓練樣本情況。

牛頓法的優缺點總結：

優點：二階收斂，收斂速度快；

缺點：牛頓法是一種迭代演算法，每一步都需要求解目標函式的hessian矩陣的逆矩陣，計算比較複雜。

共軛梯度法是介於最速下降法與牛頓法之間的乙個方法，它僅需利用一階導數資訊，但克服了最速下降法收斂慢的缺點，又避免了牛頓法需要儲存和計算hesse矩陣並求逆的缺點，共軛梯度法不僅是解決大型線性方程組最有用的方法之一，也是解大型非線性最優化最有效的演算法之一。

作為一種優化演算法，拉格朗日乘子法主要用於解決約束優化問題，它的基本思想就是通過引入拉格朗日乘子來將含有n個變數和k個約束條件的約束優化問題轉化為含有（n+k）個變數的無約束優化問題。拉格朗日乘子背後的數學意義是其為約束方程梯度線性組合中每個向量的係數。

如何將乙個含有n個變數和k個約束條件的約束優化問題轉化為含有（n+k）個變數的無約束優化問題？拉格朗日乘數法從數學意義入手，通過引入拉格朗日乘子建立極值條件，對n個變數分別求偏導對應了n個方程，然後加上k個約束條件（對應k個拉格朗日乘子）一起構成包含了（n+k）變數的（n+k）個方程的方程組問題，這樣就能根據求方程組的方法對其進行求解。　　

求函式

參考：

梯度下降及優化演算法

最優化演算法梯度下降

梯度下降演算法梯度下降演算法為何叫梯度下降？

小批量梯度下降演算法步驟優化演算法之梯度下降演算法

梯度下降及優化演算法

最優化演算法 梯度下降

梯度下降演算法 梯度下降演算法為何叫梯度下降？

小批量梯度下降演算法步驟 優化演算法之梯度下降演算法

相關推薦

最優化演算法梯度下降

梯度下降演算法梯度下降演算法為何叫梯度下降？

小批量梯度下降演算法步驟優化演算法之梯度下降演算法