降低訓練損失之梯度下降法

假設我們有時間和計算資源來計算 w1 的所有可能值的損失。對於我們一直在研究的回歸問題，所產生的損失與 w1 的圖形始終是凸形。換言之，圖形始終是碗狀圖，如下所示：

圖 2. 回歸問題產生的損失與權重圖為凸形。

凸形問題只有乙個最低點；即只存在乙個斜率正好為 0 的位置。這個最小值就是損失函式收斂之處。

通過計算整個資料集中 w1 每個可能值的損失函式來找到收斂點這種方法效率太低。我們來研究一種更好的機制，這種機制在機器學習領域非常熱門，稱為梯度下降法。

梯度下降法的第乙個階段是為 w1 選擇乙個起始值（起點）。起點並不重要；因此很多演算法就直接將 w1 設為 0 或隨機選擇乙個值。下圖顯示的是我們選擇了乙個稍大於 0 的起點：

圖 3. 梯度下降法的起點。

然後，梯度下降法演算法會計算損失曲線在起點處的梯度。簡而言之，梯度是偏導數的向量；它可以讓您了解哪個方向距離目標「更近」或「更遠」。請注意，損失相對於單個權重的梯度（如圖 3 所示）就等於導數。

詳細了解偏導數和梯度。

請注意，梯度是乙個向量，因此具有以下兩個特徵：

梯度始終指向損失函式中增長最為迅猛的方向。梯度下降法演算法會沿著負梯度的方向走一步，以便盡快降低損失。

圖 4. 梯度下降法依賴於負梯度。

圖 5. 乙個梯度步長將我們移動到損失曲線上的下乙個點。

然後，梯度下降法會重複此過程，逐漸接近最低點。

降低損失梯度下降法和隨機梯度下降法

reference 迭代方法圖包含乙個標題為計算引數更新的華而不實的綠框。現在，我們將用更實質的方法代替這種華而不實的演算法。假設我們有時間和計算資源來計算 w1 的所有可能值的損失。對於我們一直在研究的回歸問題，所產生的損失與 w1 的圖形始終是凸形。換言之，圖形始終是碗狀圖，如下所示凸形...

機器學習之梯度下降法梯度下降法分析

梯度下降法的基本思想是函式沿著其梯度方向增加最快，反之，沿著其梯度反方向減小最快。在前面的線性回歸和邏輯回歸中，都採用了梯度下降法來求解。梯度下降的迭代公式為 j j j j 在回歸演算法的實驗中，梯度下降的步長為0.01，當時也指出了該步長是通過多次時間找到的，且換一組資料後，演算法可能不收斂。...

梯度下降法和隨機梯度下降法

批量梯度下降法 batch gradient descent 在更新引數時使用所有的樣本來進行更新隨機梯度下降法 stochastic gradient descent 求梯度時沒有用所有的m個樣本的資料，而是僅僅選取乙個樣本j來求梯度。小批量梯度下降法 mini batch gradient d...

降低訓練損失之梯度下降法

降低損失 梯度下降法和隨機梯度下降法

機器學習之梯度下降法 梯度下降法分析

梯度下降法和隨機梯度下降法

相關推薦

降低損失梯度下降法和隨機梯度下降法

機器學習之梯度下降法梯度下降法分析