深度學習常用啟用函式

2022-07-30 13:06:11 字數 1675 閱讀 4780

參考(

(sigmoid函式曾被廣泛地應用,但由於其自身的一些缺陷,現在很少被使用了。sigmoid函式被定義為:

函式對應的影象是:

優點:

1.sigmoid函式的輸出對映在(0,1)之間,單調連續,輸出範圍有限,優化穩定,可以用作輸出層。

2.求導容易。

缺點:

1.由於其軟飽和性,容易產生梯度消失,導致訓練出現問題。

2.其輸出並不是以0為中心的。

3.計算exp比較耗時

現在,比起sigmoid函式我們通常更傾向於tanh函式。tanh函式被定義為

函式位於[-1, 1]區間上,對應的影象是:

優點:

1.比sigmoid函式收斂速度更快。

2.相比sigmoid函式,其輸出以0為中心。

缺點:

還是沒有改變sigmoid函式的最大問題——由於飽和性產生的梯度消失。

relu是最近幾年非常受歡迎的啟用函式。被定義為

對應的影象是:

但是除了relu本身的之外,tensorflow還提供了一些相關的函式,比如定義為min(max(features, 0), 6)的tf.nn.relu6(features, name=none);或是crelu,即tf.nn.crelu(features, name=none)。其中(crelu部分可以參考這篇**)。

優點:

1.相比起sigmoid和tanh,relu(e.g. a factor of 6 in krizhevsky et al.)在sgd中能夠快速收斂。例如在下圖的實驗中,在乙個四層的卷積神經網路中,實線代表了relu,虛線代表了tanh,relu比起tanh更快地到達了錯誤率0.25處。據稱,這是因為它線性、非飽和的形式。

2.sigmoid和tanh涉及了很多很expensive的操作(比如指數),relu可以更加簡單的實現。

3.有效緩解了梯度消失的問題。

4.在沒有無監督預訓練的時候也能有較好的表現。

5.提供了神經網路的稀疏表達能力。

缺點:

隨著訓練的進行,可能會出現神經元死亡,權重無法更新的情況。如果發生這種情況,那麼流經神經元的梯度從這一點開始將永遠是0。也就是說,relu神經元在訓練中不可逆地死亡了。

softmax- 用於多分類神經網路輸出

為什麼要取指數,第乙個原因是要模擬 max 的行為,所以要讓大的更大。

第二個原因是需要乙個可導的函式。

深度學習 啟用函式

如下圖,在神經元中,輸入的 inputs 通過加權,求和後,還被作用了乙個函式,這個函式就是啟用函式 activation function。啟用函式的這些特性可以很好地解釋我們為什麼要用啟用函式。函式公式和圖表如下圖 在sigmod函式中我們可以看到,其輸出是在 0,1 這個開區間內,這點很有意思...

深度學習 啟用函式

主要作用 加入非線性因素,彌補線性模型表達不足的缺陷 sigmoid函式 隨著 x xx 的趨近正 負無窮,y yy 對應的值越來越接近 1 1,趨近飽和 因此當 x xx 100 和 x xx 1000 的差別不大,這個特性丟掉了 x xx 1000 的資訊 tanh函式 對sigmoid函式的值...

深度學習 啟用函式

啟用函式又稱 非線性對映函式 是深度卷積神經網路中不可或缺的模組。可以說,深度網路模型強大的表示能力大部分便是由啟用函式的非線性單元帶來的。這部分共介紹7個啟用函式 sigmoid函式,tanh函式,relu函式,leaky relu函式,引數化relu,隨機化relu和指數化線性單元 elu si...