梯度下降法及其優化

1、梯度下降

2、面對的主要困難

3、分類

隨機梯度下降法(sgd)：每次只使用乙個樣本

小批量隨機梯度下降法(mini batch sgd)：使用小批量樣本

4、普通的小批量sgd（以下簡稱為sgd）的困難：

其他困難：

1、為什麼不使用牛頓法？

2、動量法(momentum)——適用於隧道型曲面（乙個方向很陡，其他方向比較平坦）

3、nesterov accelerated gradient(nag)：動量法的改進

4、adagrad——適用於稀疏的資料

優點：不需要手動調節lr

缺點：分母累計過快，lr隨步數增加下降過快，使引數更新無法繼續

5、rmsprop——adagrad的改進

問題：θ

t\theta_t

θt與δ

θ\delta \theta

δθ的單位不匹配

6、adadelta——解決rmsprop中單位不匹配的問題

7、adam(矩估計調整法)——結合了動量法和rmsprop

1、shuffering and curriculum learning

2、批規範化

3、early stopping：誤差減少到閾值以下時停止訓練

4、gradient noise：

最優化梯度下降法

最優化問題就是求解函式極值的問題，包括極大值和極小值，幾乎所有機器學習演算法歸根到底都是在求解最優化問題。在高等數學微積分中有求極值統一的思路找函式導數等於0的點，只要函式可導我們就可以用這種方法。在機器學習中我們一般求函式的極小值，若求極大值我們只需要整體加負號。有些時候我們會對優化變數x有約...

數值優化梯度下降法

ng的課件1，引出常用的優化方法梯度下降法 gradient descent 對於ordinary least squares regression，cost function為求最小值，意味著求導數為0的位置考慮只有乙個樣本這叫做lms update rule least mean squa...

梯度下降法及其改進演算法

introduce 今天會說兩個問題，第一，建議大腳多看看大牛的部落格，可以漲姿勢。例如 1 側重於語言程式設計和應用的廖雪峰 2 側重於高大上演算法和開源庫介紹的莫煩第二，加深對機器學習演算法的理解。個人理解經典機器學習演算法，例如svm，邏輯回歸，決策樹，樸素貝葉斯，神經網路，adaboos...

梯度下降法及其優化

最優化 梯度下降法

數值優化 梯度下降法

梯度下降法及其改進演算法

相關推薦

最優化梯度下降法

數值優化梯度下降法