深度學習啟用函式比較

2022-05-18 19:17:38 字數 1998 閱讀 5477

一、sigmoid函式

1)表示式

2)函式曲線

3)函式缺點

反向求導:

而其中:

所以,由上述反向傳播公式可以看出,當神經元數值無線接近1或者0的時候,在反向傳播計算過程中,梯度也幾乎為0,就導致模型引數幾乎不更新了,對模型的學習貢獻也幾乎為零。也稱為引數瀰散問題或者梯度瀰散問題。

同時,如果初始權重設定過大,會造成一開始就梯度接近為0,就導致模型從一開始就不會學習的嚴重問題。

二、tanh函式

1)公式

2) 導數

3)曲線

tanh 函式同樣存在飽和問題,但它的輸出是零中心的,因此實際中 tanh 比 sigmoid 更受歡迎。

三、relu函式

1)表示式

f(x)=max(0,x)

2)曲線

相較於 sigmoid 和 tanh 函式,relu 對於 sgd 的收斂有巨大的加速作用(alex krizhevsky 指出有 6 倍之多)。有人認為這是由它的線性、非飽和的公式導致的。我覺得最起碼在右半軸relu函式的梯度是恆定的,不存在飽和情況,只是在左側存在梯度硬飽和,sigmoid函式屬於兩端都軟飽和,這可能是relu函式相對比較受歡迎的原因吧,最起碼有一端比較完美了。

relu 的缺點是,它在訓練時比較脆弱並且可能「死掉」,就是在梯度為0硬飽和的時候,容易出現這種死掉的情況。

侷限性

3)改進

深度學習 啟用函式

如下圖,在神經元中,輸入的 inputs 通過加權,求和後,還被作用了乙個函式,這個函式就是啟用函式 activation function。啟用函式的這些特性可以很好地解釋我們為什麼要用啟用函式。函式公式和圖表如下圖 在sigmod函式中我們可以看到,其輸出是在 0,1 這個開區間內,這點很有意思...

深度學習 啟用函式

主要作用 加入非線性因素,彌補線性模型表達不足的缺陷 sigmoid函式 隨著 x xx 的趨近正 負無窮,y yy 對應的值越來越接近 1 1,趨近飽和 因此當 x xx 100 和 x xx 1000 的差別不大,這個特性丟掉了 x xx 1000 的資訊 tanh函式 對sigmoid函式的值...

深度學習 啟用函式

啟用函式又稱 非線性對映函式 是深度卷積神經網路中不可或缺的模組。可以說,深度網路模型強大的表示能力大部分便是由啟用函式的非線性單元帶來的。這部分共介紹7個啟用函式 sigmoid函式,tanh函式,relu函式,leaky relu函式,引數化relu,隨機化relu和指數化線性單元 elu si...