數值優化 梯度下降法

2021-09-06 20:07:25 字數 935 閱讀 3209

ng的課件1,引出常用的優化方法梯度下降法(gradient descent)

對於ordinary least squares regression, cost function為

求最小值,意味著求導數為0的位置

考慮只有乙個樣本

這叫做lms update rule (least mean squares)

對應所有樣本的訓練集合

這種方法叫做batch gradient decent,與之對應的在樣本數目比如海量的情況下,為了計算快速,經常會每

掃瞄乙個點就做一次update而不是掃瞄所有點後做一次update,對應稱作stochastic gradient decent

在邏輯回歸中:

對應按照mle觀點看,最大化概率

最優化 梯度下降法

最優化問題就是求解函式極值的問題,包括極大值和極小值,幾乎所有機器學習演算法歸根到底都是在求解最優化問題。在高等數學 微積分中有求極值統一的思路 找函式導數等於0的點,只要函式可導我們就可以用這種方法。在機器學習中我們一般求函式的極小值,若求極大值我們只需要整體加負號。有些時候我們會對優化變數x有約...

梯度下降法及其優化

1 梯度下降 2 面對的主要困難 3 分類 隨機梯度下降法 sgd 每次只使用乙個樣本 小批量隨機梯度下降法 mini batch sgd 使用小批量樣本 4 普通的小批量sgd 以下簡稱為sgd 的困難 其他困難 1 為什麼不使用牛頓法?2 動量法 momentum 適用於隧道型曲面 乙個方向很陡...

梯度下降法和隨機梯度下降法

批量梯度下降法 batch gradient descent 在更新引數時使用所有的樣本來進行更新 隨機梯度下降法 stochastic gradient descent 求梯度時沒有用所有的m個樣本的資料,而是僅僅選取乙個樣本j來求梯度。小批量梯度下降法 mini batch gradient d...