神經網路啟用函式和損失函式

其導數及其滿足的關係如下

sigmoid函式曲線如下:

sigmoid啟用函式，符合實際，當輸入值很小時，輸出接近於0；當輸入值很大時，輸出值接近於1。

但sigmoid啟用函式有較大的缺點，是主要有兩點：

（1）容易引起梯度消失。當輸入值很小或很大時，梯度趨向於0，相當於函式曲線左右兩端函式導數趨向於0。

（2）非零中心化，會影響梯度下降的動態性。這個可以參考cs231n.

tanh函式曲線如下：

與sigmoid相比，輸出至的範圍變成了0中心化[-1, 1]。但梯度消失現象依然存在。

relu修正線性單元是有許多優點，是目前神經網路中使用最多的啟用函式。

函式曲線如下：

優點：（1）不會出現梯度消失，收斂速度快；

（2）前向計算量小，只需要計算max(0, x)，不像sigmoid中有指數計算；

（3）反向傳播計算快，導數計算簡單，無需指數、出發計算；

（4）有些神經元的值為0，使網路具有saprse性質，可減小過擬合。

缺點：（1）比較脆弱，在訓練時容易「die」，反向傳播中如果乙個引數為0，後面的引數就會不更新。使用合適的學習率會減弱這種情況。

leak relu是對relu缺點的改進，當輸入值小於0時，輸出值為αx，其中α是乙個很小的常數。這樣在反向傳播中就不容易出現「die」的情況。

損失函式（loss function）也叫代價函式（cost function）。是神經網路優化的目標函式，神經網路訓練或者優化的過程就是最小化損失函式的過程（損失函式值小了，對應**的結果和真實結果的值就越接近

交叉熵（cross-entropy）代價函式**於資訊理論中熵的概念。是目前神經網路分類問題中（比如影象分類）常用的代價函式。交叉熵代價函式對分類問題有乙個很好的解釋：當分類輸出正確類的結果（輸出層使用softmax函式之後的值）接近於1，即a=~1時，對應正確類的標籤為1，即y=1。則可得到，c中第一項接近於0，第二項等於0。對於非正確類，a接近於0，y=0,則c中第一項為0，第二項接近於0。故最終c接近於0；當分類輸出正確類的結果與1的差距越大，則上式c的值越大。

對數似然函式與交叉熵代價函式類似，但只考了正確類損失，不考慮錯誤類的損失，用的也比較多。與交叉熵代價函式一樣，對數似然也對分類有乙個很好的解釋：當正確類的輸出值a（輸出層只用softmax後的值）接近於1時，y=1，c接近於0；當輸出值a距離a越大時，c值越大。

神經網路啟用函式和損失函式

神經網路損失函式

神經網路損失函式

神經網路損失函式

神經網路啟用函式和損失函式

神經網路損失函式

神經網路 損失函式

神經網路 損失函式

相關推薦

神經網路損失函式

神經網路損失函式