神經網路啟用函式和損失函式

2021-08-30 11:13:56 字數 1884 閱讀 3141

其導數及其滿足的關係如下

sigmoid函式曲線如下:

sigmoid啟用函式,符合實際,當輸入值很小時,輸出接近於0;當輸入值很大時,輸出值接近於1。

但sigmoid啟用函式有較大的缺點,是主要有兩點:

(1)容易引起梯度消失。當輸入值很小或很大時,梯度趨向於0,相當於函式曲線左右兩端函式導數趨向於0。

(2)非零中心化,會影響梯度下降的動態性。這個可以參考cs231n.

tanh函式曲線如下:

與sigmoid相比,輸出至的範圍變成了0中心化[-1, 1]。但梯度消失現象依然存在。

relu修正線性單元是有許多優點,是目前神經網路中使用最多的啟用函式。

函式曲線如下:

優點:(1)不會出現梯度消失,收斂速度快;

(2)前向計算量小,只需要計算max(0, x),不像sigmoid中有指數計算;

(3)反向傳播計算快,導數計算簡單,無需指數、出發計算;

(4)有些神經元的值為0,使網路具有saprse性質,可減小過擬合。

缺點:(1)比較脆弱,在訓練時容易「die」,反向傳播中如果乙個引數為0,後面的引數就會不更新。使用合適的學習率會減弱這種情況。

leak relu是對relu缺點的改進,當輸入值小於0時,輸出值為αx,其中α是乙個很小的常數。這樣在反向傳播中就不容易出現「die」的情況。

損失函式(loss function)也叫代價函式(cost function)。是神經網路優化的目標函式,神經網路訓練或者優化的過程就是最小化損失函式的過程(損失函式值小了,對應**的結果和真實結果的值就越接近

交叉熵(cross-entropy)代價函式**於資訊理論中熵的概念。是目前神經網路分類問題中(比如影象分類)常用的代價函式。交叉熵代價函式對分類問題有乙個很好的解釋:當分類輸出正確類的結果(輸出層使用softmax函式之後的值)接近於1,即a=~1時,對應正確類的標籤為1,即y=1。則可得到,c中第一項接近於0,第二項等於0。對於非正確類,a接近於0,y=0,則c中第一項為0,第二項接近於0。故最終c接近於0;當分類輸出正確類的結果與1的差距越大,則上式c的值越大。

對數似然函式與交叉熵代價函式類似,但只考了正確類損失,不考慮錯誤類的損失,用的也比較多。與交叉熵代價函式一樣,對數似然也對分類有乙個很好的解釋:當正確類的輸出值a(輸出層只用softmax後的值)接近於1時,y=1,c接近於0;當輸出值a距離a越大時,c值越大。

神經網路損失函式

2018,aug 3 顧名思義,從標題就能知道損失函式 loss function 一定就是來計算神經網路在訓練中的損失的。說完了定義那到了舉例時間了 主要拿softmax loss來分析 這裡的k也就是我們分類的類別。然後這個函式是怎麼用的呢,我們可以簡單的舉乙個分類的例子來看下。假設我們輸入一張...

神經網路 損失函式

開始之前我們先進入數字識別這樣乙個場景 以識別數字1為例,神經網路模型的輸出結果越接近 0,1,0,0,0,0,0,0,0,0 越好。神經網路解決多分類的問題,最常見的方法是設定n個輸出節點,其中n類別個數,那麼上述數字判斷就應該有n 10個輸出。那麼如何判斷乙個輸出向量和期望向量的接近程度呢?交叉...

神經網路 損失函式

先上結論 在使用sigmoid作為啟用函式的時候,cross entropy相比於quadratic cost function,具有收斂速度快,更容易獲得全域性最優的特點 使用softmax作為啟用函式,log likelihood作為損失函式,不存在收斂慢的缺點。對於損失函式的收斂特性,我們期望...