深度學習啟用函式比較

一、sigmoid函式

1）表示式

2）函式曲線

3）函式缺點

反向求導：

而其中：

所以，由上述反向傳播公式可以看出，當神經元數值無線接近1或者0的時候，在反向傳播計算過程中，梯度也幾乎為0，就導致模型引數幾乎不更新了，對模型的學習貢獻也幾乎為零。也稱為引數瀰散問題或者梯度瀰散問題。

同時，如果初始權重設定過大，會造成一開始就梯度接近為0，就導致模型從一開始就不會學習的嚴重問題。

二、tanh函式

1）公式

2) 導數

3）曲線

tanh 函式同樣存在飽和問題，但它的輸出是零中心的，因此實際中 tanh 比 sigmoid 更受歡迎。

三、relu函式

1）表示式

f(x)=max(0,x)

2）曲線

相較於 sigmoid 和 tanh 函式，relu 對於 sgd 的收斂有巨大的加速作用（alex krizhevsky 指出有 6 倍之多）。有人認為這是由它的線性、非飽和的公式導致的。我覺得最起碼在右半軸relu函式的梯度是恆定的，不存在飽和情況，只是在左側存在梯度硬飽和，sigmoid函式屬於兩端都軟飽和，這可能是relu函式相對比較受歡迎的原因吧，最起碼有一端比較完美了。

relu 的缺點是，它在訓練時比較脆弱並且可能「死掉」，就是在梯度為0硬飽和的時候，容易出現這種死掉的情況。

侷限性

3）改進

深度學習啟用函式比較

深度學習 啟用函式

深度學習 啟用函式

深度學習 啟用函式

相關推薦

深度學習啟用函式

深度學習啟用函式

深度學習啟用函式