損失函式和梯度下降

2021-10-21 20:34:21 字數 2521 閱讀 9939

前提:

前向傳播經過若干個神經元,再經過啟用函式,最終得到結果,然後輸出損失函式,根據損失函式再進行反向傳播,及傳遞梯度,調整權重。

並不是根據啟用偶函式輸出直接返回梯度值,而是在計算損失函式的基礎上進行反向傳播梯度。更多的是按照小批量的處理,累計梯度求平均值,最後進行梯度下降。

損失函式與分類函式

svm和折葉損失:舉例:用乙個例子演示公式是如何計算的。假設有3個分類,並且得到了分值 s=[13,-7,11] 。其中第乙個類別是正確類別,即yi​=0 。同時假設δ 是10(後面會詳細介紹該超引數)。上面的公式是將所有不正確分類加起來,所以我們得到兩個部分:

可以看到第乙個部分結果是0,這是因為[-7-13+10]得到的是負數,經過max(0,−) 函式處理後得到0。這一對類別分數和標籤的損失值是0,這是因為正確分類的得分13與錯誤分類的得分-7的差為20,高於邊界值10。而svm只關心差距至少要大於10,更大的差值還是算作損失值為0。第二個部分計算[11-13+10]得到8。雖然正確分類的得分比不正確分類的得分要高(13>11),但是比10的邊界值還是小了,分差只有2,這就是為什麼損失值等於8。簡而言之,svm的損失函式想要正確分類類別 yi​的分數比不正確類別分數高,而且至少要高δ。如果不滿足這點,就開始計算損失值。

softmax分類器和交叉熵損失:

svm是最常用的兩個分類器之一,而另乙個就是softmax分類器,它的損失函式與svm的損失函式不同。對於學習過二元邏輯回歸分類器的讀者來說,softmax分類器就可以理解為邏輯回歸分類器面對多個分類的一般化歸納。svm將輸出f(xi​,w) 作為每個分類的評分(因為無定標,所以難以直接解釋)。與svm不同,softmax的輸出(歸一化的分類概率)更加直觀,並且從概率上可以解釋,這一點後文會討論。在softmax分類器中,函式對映f(xi​;w)=wxi​保持不變,但將這些評分值視為每個分類的未歸一化的對數概率,並且將折葉損失(hinge loss)替換為交叉熵損失(cross-entropy loss)。公式如下:

梯度下降:

v = mu * v - learning_rate * dx # 與速度融合

x += v # 與位置融合`

adagrad(自適應梯度演算法):思想就是,在更新次數增多,用累加的梯度值作為學習率的分母,從而達到降低學習率的效果。

# 假設有梯度和引數向量x

cache += dx**2

x += - learning_rate * dx / (np.sqrt(cache) + eps)

從上式可以看出,adagrad使的引數在累積的梯度較小時(\ theta <1)就會放大學習率,使網路訓練更加快速。在梯度的累積量較大時(\ theta> 1)就會縮小學習率。也就是將梯度進行累加,當迭代次數逐漸增多,後期的累加梯度就會變大,學習率的分母就會變大,從而達到降低學習率的效果。

rmsprop(均方根支柱):

思想:雖然adagrad在理論上有些較好的性質,但是在實踐中表現的並不是很好,其根本原因就是隨著訓練週期的增長,學習率降低的很快。而rmsprop演算法就在adagrad基礎上引入了衰減因子,使當前梯度和以前累加梯度進行權重的分配,以至於降低以往累加梯度對當前梯度的影響。也是通過更改學習率達到自適應梯度下降的。

adam(自適應動量優化):通過學習率和梯度的雙重更新達到梯度下降。其中梯度更改使用動量法,學習率使用rmsprop

過程:首先進行小批量的資料處理,獲得梯度的均值

使用之前的動量與當前梯度進行不同權重的結合,得到新的梯度

使用之前的梯度與當前梯度不用權重的結合,作為分母,用於改變學習率

文章借鑑於:

損失函式與梯度下降

梯度下降演算法會依賴於導數和偏導數 導數定義 所謂導數,就是用來分析函式 變化率 的一種度量。導數越大變化率越大,導數越小變化率越小,其公式為 偏導 的英文本意是 partial derivatives 表示區域性導數 對於多維變數函式而言,當球某個變數的導數時,就是把其他變數視為常量,然後對整個函...

損失函式和梯度下降解釋

損失函式 loss function 是用來估量模型的 值 我們例子中的output 與真實值 例子中的y train 的不一致程度,它是乙個非負實值函式,損失函式越小,模型的魯棒性就越好。我們訓練模型的過程,就是通過不斷的迭代計算,使用梯度下降的優化演算法,使得損失函式越來越小。損失函式越小就表示...

線性回歸的損失函式和梯度下降

損失函式 總損失定義為 理解 x為特徵值矩陣,y為目標值矩陣。直接求到最好的結果 缺點 當特徵過多過複雜時,求解速度太慢並且得不到結果 其中y是真實值矩陣,x是特徵值矩陣,w是權重矩陣 對其求解關於w的最小值,起止y,x 均已知二次函式直接求導,導數為零的位置,即為最小值。求導 注 式 1 到式 2...