梯度下降法及其優化

2021-09-12 19:10:46 字數 683 閱讀 5567

1、梯度下降

2、面對的主要困難

3、分類

隨機梯度下降法(sgd):每次只使用乙個樣本

小批量隨機梯度下降法(mini batch sgd):使用小批量樣本

4、普通的小批量sgd(以下簡稱為sgd)的困難:

其他困難:

1、為什麼不使用牛頓法?

2、動量法(momentum)——適用於隧道型曲面(乙個方向很陡,其他方向比較平坦)

3、nesterov accelerated gradient(nag):動量法的改進

4、adagrad——適用於稀疏的資料

優點:不需要手動調節lr

缺點:分母累計過快,lr隨步數增加下降過快,使引數更新無法繼續

5、rmsprop——adagrad的改進

問題:θ

t\theta_t

θt​與δ

θ\delta \theta

δθ的單位不匹配

6、adadelta——解決rmsprop中單位不匹配的問題

7、adam(矩估計調整法)——結合了動量法和rmsprop

1、shuffering and curriculum learning

2、批規範化

3、early stopping:誤差減少到閾值以下時停止訓練

4、gradient noise:

最優化 梯度下降法

最優化問題就是求解函式極值的問題,包括極大值和極小值,幾乎所有機器學習演算法歸根到底都是在求解最優化問題。在高等數學 微積分中有求極值統一的思路 找函式導數等於0的點,只要函式可導我們就可以用這種方法。在機器學習中我們一般求函式的極小值,若求極大值我們只需要整體加負號。有些時候我們會對優化變數x有約...

數值優化 梯度下降法

ng的課件1,引出常用的優化方法梯度下降法 gradient descent 對於ordinary least squares regression,cost function為 求最小值,意味著求導數為0的位置 考慮只有乙個樣本 這叫做lms update rule least mean squa...

梯度下降法及其改進演算法

introduce 今天會說兩個問題,第一,建議大腳多看看大牛的部落格,可以漲姿勢。例如 1 側重於語言程式設計和應用的廖雪峰 2 側重於高大上演算法和開源庫介紹的莫煩 第二,加深對機器學習演算法的理解。個人理解 經典機器學習演算法,例如svm,邏輯回歸,決策樹,樸素貝葉斯,神經網路,adaboos...