AI入門反向傳播和梯度下降

上一節中提到，分類函式是神經網路正向傳播的最後一層。但是如果要進行訓練，我們只有**結果是不夠的，我們需要拿**結果跟真實值進行對比，根據對比結果判斷我們的神經網路是不是夠好。

也就是說我們需要在分類函式後面增加一層：計算損失值。計算損失值這一層才是神經網路真正的最後一層。有了損失值之後，我們反過來優化每一層的引數值----這就是反向傳播。反向傳播中的優化過程需要使用梯度下降演算法。典型的梯度下降演算法有sgd、momentum、adagrad、rmsprop、adam等，下面進行簡單的描述：

1、sgd是最典型的梯度下降演算法，但是如果函式的梯度比較小的時候，sgd演算法就會變得很慢。

2、momentum是在sgd上增加了動量。簡單來說，開始的時候演算法可能處於乙個坡度比較大的位置，這時進行梯度下降會有乙個比較快的「速度」，然後演算法到了梯度很小的位置，momentum演算法會帶著部分原有的「速度」，衝過這段梯度很小區域。

3、adagrad演算法是梯度自適應演算法。也就是在梯度很大的時候走慢一點，梯度小的時候走快一點。理論上adagrad演算法是很好的，但實際表現不是很好。

4、rmsprop演算法是momentum和adagrad演算法的集合體，不僅能自適應梯度，還增加了動量，所以實際效果是很好的。

5、adam演算法是rmsprop演算法的改進版本。adam演算法是目前最常用的優化演算法。

tensorflow、pytorch等機器學習軟體框架都已經實現好了反向傳播的功能，我們只需要呼叫這些優化演算法即可。我們需要知道的是，反向傳播是整個神經網路得以優化的前提。至此，我們介紹了乙個最簡單的神經網路的結構。下圖就是該網路的總體結構。

AI入門反向傳播和梯度下降

深度學習梯度下降和反向傳播

pytorch 梯度下降與反向傳播

反向傳播以及梯度下降法

AI入門 反向傳播和梯度下降

深度學習 梯度下降和反向傳播

pytorch 梯度下降與反向傳播

反向傳播以及梯度下降法

相關推薦

AI入門反向傳播和梯度下降

深度學習梯度下降和反向傳播