關於梯度下降

2021-09-01 12:52:05 字數 761 閱讀 9066

關於何為梯度下降:

批量梯度下降(bgd):用所有資料計算梯度 

隨機梯度下降(sgd):用單個資料計算梯度

小批量梯度下降(mbgd):用小部分資料計算梯度 

動量梯度下降(momentum)

通過結合之前的梯度動量來計算當前的梯度動量,其計算公式的實質為為前n個梯度向量的平均。常用公式如圖, 其中β指代平均前1/(1-β)個梯度向量。該公式還有omitted版本,即相應動量公式左右同時乘以1/(1-β)。

關於偏差修正:其主要是在各種迭代計算的初期取得更好的預估值,在此處一般可以不採用。

簡單來說就是用之前的n組梯度向量對當前的梯度向量進行歸一化,減緩梯度下降時方向的跳躍。

結合了動量梯度下降和rmsprop,其用於更新引數的梯度向量來自於之前n次梯度向量的均值梯度向量並歸一化。

關於梯度下降

什麼是梯度下降 簡單地來說,多元函式的導數 derivative 就是梯度 gradient 分別對每個變數進行微分,然後用逗號分割開,梯度是用括號包括起來,說明梯度其實乙個向量,我們說損失函式l的梯度為 我們知道導數就是變化率。梯度是向量,和引數維度一樣。總結梯度下降這一目前機器學習 深度學習解決...

梯度下降 隨機梯度下降 批梯度下降

下面的h x 是要擬合的函式,j 損失函式,theta是引數,要迭代求解的值,theta求解出來了那最終要擬合的函式h 就出來了。其中m是訓練集的記錄條數,j是引數的個數。梯度下降法流程 1 先對 隨機賦值,可以是乙個全零的向量。2 改變 的值,使j 按梯度下降的方向減少。以上式為例 1 對於我們的...

梯度下降 隨機梯度下降和批量梯度下降

對比梯度下降和隨機梯度下降和批量梯度下降 之前看的知識比較零散,沒有乙個系統的解釋說明,看了一些網上的博主的分析,總結了一下自己的理解。例子這裡我參照其他博主的例子做了一些修改,首先是梯度下降 coding utf 8 import random this is a sample to simula...