神經網路中的啟用函式

所謂啟用函式（activation function），就是在人工神經網路的神經元上執行的函式，負責將神經元的輸入對映到輸出端，也叫激勵函式。

作用：因為線性模型的表達能力不夠，引入啟用函式是為了新增非線性因素。

在神經網路中，每一層輸出的都是上一層輸入的線性函式，所以無論網路結構怎麼搭，輸出都是輸入的線性組合。

在我們面對線性可分的資料集的時候，簡單的用線性分類器即可解決分類問題。但是現實生活中的資料往往不是線性可分的，面對這樣的資料，一般有兩個方法：引入非線性函式、線性變換。

線性變換：就是把當前特徵空間通過一定的線性對映轉換到另乙個空間，讓資料能夠更好的被分類。

引入非線性函式（啟用函式）：啟用函式是如何引入非線性因素的呢？在神經網路中，為了避免單純的線性組合，我們在每一層的輸出後面都新增乙個啟用函式（sigmoid、tanh、relu等等）。

是常用的非線性的啟用函式，它的數學形式如下：

它能夠把輸入的連續實值「壓縮」到0和1之間。特別的，如果是非常大的負數，那麼輸出就是0；如果是非常大的正數，輸出就是1.

缺點：（1）梯度消失。sigmoid 有乙個非常致命的缺點，當輸入非常大或者非常小的時候，這些神經元的梯度是接近於0的。在神經網路反向傳播的過程中，我們都是通過微分的鏈式法則來計算各個權重w的微分的。當反向傳播經過了sigmod函式，這個鏈條上的微分就很小很小了，況且還可能經過很多個sigmod函式，最後會導致權重w對損失函式幾乎沒影響，這樣不利於權重的優化，這個問題叫做梯度飽和。所以，你需要尤其注意引數的初始值來盡量避免saturation的情況。如果你的初始值很大的話，大部分神經元可能都會處在saturation的狀態而把gradient kill掉，這會導致網路變的很難學習。

（2）sigmoid 的 output 不是0均值，這樣會使權重更新效率降低。這是不可取的，因為這會導致後一層的神經元將得到上一層輸出的非0均值的訊號作為輸入。產生的乙個結果就是：如果資料進入神經元的時候是正的，那麼 w 計算出的梯度也會始終都是正的。

（3）sigmod函式要進行指數運算，這個對於計算機來說是比較慢的。

tanh

是sigmoid的變形：

tanh同樣存在在輸入很大或是很小的時候，輸出都幾乎平滑，梯度很小，不利於權重更新的問題。與 sigmoid 不同的是，tanh 是0均值的。因此，實際應用中，tanh 會比 sigmoid 更好。

一般二分類問題中，隱藏層用tanh函式，輸出層用sigmod函式。不過這些也都不是一成不變的，具體使用什麼啟用函式，還是要根據具體的問題來具體分析，還是要靠除錯的。

relu，rectified linear unit，稱為修正線性單元。

relu(rectified linear unit)函式是目前比較火的乙個啟用函式，相比於sigmoid函式和tanh函式，它有以下幾個優點：

（1）相比於sigmoid和tanh，克服了梯度消失的問題

（2）計算速度要快很多。relu函式只有線性關係，不管是前向傳播還是反向傳播，都比sigmod和tanh要快很多。（sigmoid和tanh要計算指數，計算速度會比較慢）

當然，缺點也是有的：

（1）訓練的時候很」脆弱」，很容易就」die」了. 什麼意思呢？

舉個例子：乙個非常大的梯度流過乙個 relu 神經元，更新過引數之後，這個神經元再也不會對任何資料有啟用現象了。如果這個情況發生了，那麼這個神經元的梯度就永遠都會是0。實際操作中，如果你的learning rate 很大，那麼很有可能你網路中的40%的神經元都」dead」了。當然，如果你設定了乙個合適的較小的learning rate，這個問題發生的情況其實也不會太頻繁。

（2）我們發現relu函式的輸出要麼是0，要麼是正數，這也就是說，relu函式也不是以0為中心的函式。

筆記：激勵函式需要可微分；神經層不是很多時，可以對隱藏層使用任意的激勵函式，卷積神經網路的卷積層中推薦使用relu，迴圈神經網路中推薦使用tanh或者relu；神經層比較多時，需要慎重選擇激勵函式。

神經網路中的啟用函式

神經網路中的啟用函式

神經網路啟用函式

啟用函式神經網路

神經網路中的啟用函式

神經網路中的啟用函式

神經網路啟用函式

啟用函式 神經網路

相關推薦

啟用函式神經網路