梯度下降（Gradient Descent）

1. 特徵：沿負梯度方向迭代更新下一次的搜尋方向

2. 用於：優化問題中逼近極值點

3. 基本形式：$\theta'_j=\theta_j-\alpha\cdot\frac}$

4. 步長 $\alpha$（學習速率）：$\alpha$太小，收斂慢；$\alpha$太大，可能不收斂。

5. 缺點：

①靠近極值點收斂速度減慢（導數減小）

②可能之字形下降

③總體收斂速度慢（一階線性）

6. 變種：

①bgd批量梯度下降（batch gradient descent）：原始形式，每次用所有樣本求導更新。

②sgd隨機梯度下降（stachastic gradient descent）：每次隨機選乙個樣本來更新，計算量小，收斂快，但準確率下降，並且不易於並行實現。

③mbgd小批量梯度下降（mini-batch gradient descent）：折中方案，每次隨機選b個樣本進行更新。

7. 加速：feature scaling：將feature各維度標準化，即mean normalization：$x=\frac}$

梯度下降隨機梯度下降批梯度下降

下面的h x 是要擬合的函式，j 損失函式，theta是引數，要迭代求解的值，theta求解出來了那最終要擬合的函式h 就出來了。其中m是訓練集的記錄條數，j是引數的個數。梯度下降法流程 1 先對隨機賦值，可以是乙個全零的向量。2 改變的值，使j 按梯度下降的方向減少。以上式為例 1 對於我們的...

梯度下降隨機梯度下降和批量梯度下降

對比梯度下降和隨機梯度下降和批量梯度下降之前看的知識比較零散，沒有乙個系統的解釋說明，看了一些網上的博主的分析，總結了一下自己的理解。例子這裡我參照其他博主的例子做了一些修改，首先是梯度下降 coding utf 8 import random this is a sample to simula...

stanford 梯度梯度下降，隨機梯度下降

一梯度gradient 在標量場f中的一點處存在乙個向量g，該向量方向為f在該點處變化率最大的方向，其模也等於這個最大變化率的數值，則向量g稱為標量場f的梯度。在向量微積分中，標量場的梯度是乙個向量場。標量場中某一點上的梯度指向標量場增長最快的方向，梯度的長度是這個最大的變化率。更嚴格的說，從歐氏...

梯度下降（Gradient Descent）

梯度下降 隨機梯度下降 批梯度下降

梯度下降 隨機梯度下降和批量梯度下降

stanford 梯度 梯度下降，隨機梯度下降

相關推薦

梯度下降隨機梯度下降批梯度下降

梯度下降隨機梯度下降和批量梯度下降

stanford 梯度梯度下降，隨機梯度下降