降低訓練損失之梯度下降法

2021-10-04 10:59:00 字數 1068 閱讀 2186

假設我們有時間和計算資源來計算 w1 的所有可能值的損失。對於我們一直在研究的回歸問題,所產生的損失與 w1 的圖形始終是凸形。換言之,圖形始終是碗狀圖,如下所示:

圖 2. 回歸問題產生的損失與權重圖為凸形。

凸形問題只有乙個最低點;即只存在乙個斜率正好為 0 的位置。這個最小值就是損失函式收斂之處。

通過計算整個資料集中 w1 每個可能值的損失函式來找到收斂點這種方法效率太低。我們來研究一種更好的機制,這種機制在機器學習領域非常熱門,稱為梯度下降法

梯度下降法的第乙個階段是為 w1 選擇乙個起始值(起點)。起點並不重要;因此很多演算法就直接將 w1 設為 0 或隨機選擇乙個值。下圖顯示的是我們選擇了乙個稍大於 0 的起點:

圖 3. 梯度下降法的起點。

然後,梯度下降法演算法會計算損失曲線在起點處的梯度。簡而言之,梯度是偏導數的向量;它可以讓您了解哪個方向距離目標「更近」或「更遠」。請注意,損失相對於單個權重的梯度(如圖 3 所示)就等於導數。

詳細了解偏導數和梯度。

請注意,梯度是乙個向量,因此具有以下兩個特徵:

梯度始終指向損失函式中增長最為迅猛的方向。梯度下降法演算法會沿著負梯度的方向走一步,以便盡快降低損失。

圖 4. 梯度下降法依賴於負梯度。

圖 5. 乙個梯度步長將我們移動到損失曲線上的下乙個點。

然後,梯度下降法會重複此過程,逐漸接近最低點。

降低損失 梯度下降法和隨機梯度下降法

reference 迭代方法圖 包含乙個標題為 計算引數更新 的華而不實的綠框。現在,我們將用更實質的方法代替這種華而不實的演算法。假設我們有時間和計算資源來計算 w1 的所有可能值的損失。對於我們一直在研究的回歸問題,所產生的損失與 w1 的圖形始終是凸形。換言之,圖形始終是碗狀圖,如下所示 凸形...

機器學習之梯度下降法 梯度下降法分析

梯度下降法的基本思想是函式沿著其梯度方向增加最快,反之,沿著其梯度反方向減小最快。在前面的線性回歸和邏輯回歸中,都採用了梯度下降法來求解。梯度下降的迭代公式為 j j j j 在回歸演算法的實驗中,梯度下降的步長 為0.01,當時也指出了該步長是通過多次時間找到的,且換一組資料後,演算法可能不收斂。...

梯度下降法和隨機梯度下降法

批量梯度下降法 batch gradient descent 在更新引數時使用所有的樣本來進行更新 隨機梯度下降法 stochastic gradient descent 求梯度時沒有用所有的m個樣本的資料,而是僅僅選取乙個樣本j來求梯度。小批量梯度下降法 mini batch gradient d...