梯度下降的三種形式

2021-07-13 11:31:10 字數 798 閱讀 2061

1、批量梯度下降法bgd

批量梯度下降法(batch gradient descent,簡稱bgd)是梯度下降法最原始的形式,它的具體思路是在更新每一引數時都使用所有的樣本來進行更新。

優點:全域性最優解;易於並行實現;

缺點:當樣本數目很多時,訓練過程會很慢。

2、隨機梯度下降法sgd

隨機梯度下降是通過每個樣本來迭代更新一次,如果樣本量很大的情況(例如幾十萬),那麼可能只用其中幾萬條或者幾千條的樣本,就已經將theta迭代到最優解了,對比上面的批量梯度下降,迭代一次需要用到十幾萬訓練樣本,一次迭代不可能最優,如果迭代10次的話就需要遍歷訓練樣本10次。但是,sgd伴隨的乙個問題是噪音較bgd要多,使得sgd並不是每次迭代都向著整體最優化方向。

優點:訓練速度快;

缺點:準確度下降,並不是全域性最優;不易於並行實現。

3、小批量梯度下降法mbgd

有上述的兩種梯度下降法可以看出,其各自均有優缺點,那麼能不能在兩種方法的效能之間取得乙個折衷呢?即,演算法的訓練過程比較快,而且也要保證最終引數訓練的準確率,而這正是小批量梯度下降法(mini-batch gradient descent,簡稱mbgd)的初衷。

梯度下降法的三種形式 BGD SGD MBGD

在應用機器學習演算法時,我們通常採用梯度下降法來對採用的演算法進行訓練。其實,常用的梯度下降法還具體包含有三種不同的形式,它們也各自有著不同的優缺點。下面我們以線性回歸演算法來對三種梯度下降法進行比較。一般線性回歸函式的假設函式為 對應的損失函式為 下圖為乙個二維引數 0 0和 1 1 組對應能量函...

梯度下降法的三種形式BGD SGD以及MBGD

在應用機器學習演算法時,我們通常採用梯度下降法來對採用的演算法進行訓練。其實,常用的梯度下降法還具體包含有三種不同的形式,它們也各自有著不同的優缺點。下面我們以線性回歸演算法來對三種梯度下降法進行比較。一般線性回歸函式的假設函式為 h nj 0 j xjh j 0n jxj 對應的能量函式 損失函式...

梯度下降法的三種形式BGD SGD以及MBGD

閱讀目錄 在應用機器學習演算法時,我們通常採用梯度下降法來對採用的演算法進行訓練。其實,常用的梯度下降法還具體包含有三種不同的形式,它們也各自有著不同的優缺點。下面我們以線性回歸演算法來對三種梯度下降法進行比較。一般線性回歸函式的假設函式為 h n j 0 jxj h j 0n jxj 對應的能量函...