損失函式和梯度下降

前提：

前向傳播經過若干個神經元，再經過啟用函式，最終得到結果，然後輸出損失函式，根據損失函式再進行反向傳播，及傳遞梯度，調整權重。

並不是根據啟用偶函式輸出直接返回梯度值，而是在計算損失函式的基礎上進行反向傳播梯度。更多的是按照小批量的處理，累計梯度求平均值，最後進行梯度下降。

損失函式與分類函式

svm和折葉損失：舉例：用乙個例子演示公式是如何計算的。假設有3個分類，並且得到了分值 s=[13,-7,11] 。其中第乙個類別是正確類別，即yi=0 。同時假設δ 是10（後面會詳細介紹該超引數）。上面的公式是將所有不正確分類加起來，所以我們得到兩個部分：

可以看到第乙個部分結果是0，這是因為[-7-13+10]得到的是負數，經過max(0,−) 函式處理後得到0。這一對類別分數和標籤的損失值是0，這是因為正確分類的得分13與錯誤分類的得分-7的差為20，高於邊界值10。而svm只關心差距至少要大於10，更大的差值還是算作損失值為0。第二個部分計算[11-13+10]得到8。雖然正確分類的得分比不正確分類的得分要高（13>11），但是比10的邊界值還是小了，分差只有2，這就是為什麼損失值等於8。簡而言之，svm的損失函式想要正確分類類別 yi的分數比不正確類別分數高，而且至少要高δ。如果不滿足這點，就開始計算損失值。

softmax分類器和交叉熵損失：

svm是最常用的兩個分類器之一，而另乙個就是softmax分類器，它的損失函式與svm的損失函式不同。對於學習過二元邏輯回歸分類器的讀者來說，softmax分類器就可以理解為邏輯回歸分類器面對多個分類的一般化歸納。svm將輸出f(xi,w) 作為每個分類的評分（因為無定標，所以難以直接解釋）。與svm不同，softmax的輸出（歸一化的分類概率）更加直觀，並且從概率上可以解釋，這一點後文會討論。在softmax分類器中，函式對映f(xi;w)=wxi保持不變，但將這些評分值視為每個分類的未歸一化的對數概率，並且將折葉損失（hinge loss）替換為交叉熵損失（cross-entropy loss）。公式如下：

梯度下降：

v = mu * v - learning_rate * dx # 與速度融合
x += v # 與位置融合`

adagrad（自適應梯度演算法）：思想就是，在更新次數增多，用累加的梯度值作為學習率的分母，從而達到降低學習率的效果。

# 假設有梯度和引數向量x
cache += dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

從上式可以看出，adagrad使的引數在累積的梯度較小時（\ theta <1）就會放大學習率，使網路訓練更加快速。在梯度的累積量較大時（\ theta> 1）就會縮小學習率。也就是將梯度進行累加，當迭代次數逐漸增多，後期的累加梯度就會變大，學習率的分母就會變大，從而達到降低學習率的效果。

rmsprop（均方根支柱）：

思想：雖然adagrad在理論上有些較好的性質，但是在實踐中表現的並不是很好，其根本原因就是隨著訓練週期的增長，學習率降低的很快。而rmsprop演算法就在adagrad基礎上引入了衰減因子，使當前梯度和以前累加梯度進行權重的分配，以至於降低以往累加梯度對當前梯度的影響。也是通過更改學習率達到自適應梯度下降的。

adam（自適應動量優化）：通過學習率和梯度的雙重更新達到梯度下降。其中梯度更改使用動量法，學習率使用rmsprop

過程：首先進行小批量的資料處理，獲得梯度的均值

使用之前的動量與當前梯度進行不同權重的結合，得到新的梯度

使用之前的梯度與當前梯度不用權重的結合，作為分母，用於改變學習率

文章借鑑於:

損失函式和梯度下降

損失函式與梯度下降

損失函式和梯度下降解釋

線性回歸的損失函式和梯度下降

損失函式和梯度下降

損失函式與梯度下降

損失函式和梯度下降解釋

線性回歸的損失函式和梯度下降

相關推薦