深度學習筆記

在深度神經網路中，通常使用一種叫修正線性單元(rectified linear unit，relu）作為神經元的啟用函式。

relu函式其實是分段線性函式，把所有的負值都變為0，而正值不變，這種操作被成為單側抑制。可別小看這個簡單的操作，正因為有了這單側抑制，才使得神經網路中的神經元也具有了稀疏啟用性。尤其體現在深度神經網路模型(如cnn)中，當模型增加n層之後，理論上relu神經元的啟用率將降低2的n次方倍。

通過relu實現稀疏後的模型能夠更好地挖掘相關特徵，擬合訓練資料。

相比於其它啟用函式來說，relu有以下優勢：對於線性函式而言，relu的表達能力更強，尤其體現在深度網路中；而對於非線性函式而言，relu由於非負區間的梯度為常數，因此不存在梯度消失問題(vanishing gradient problem)，使得模型的收斂速度維持在乙個穩定狀態。這裡稍微描述一下什麼是梯度消失問題：當梯度小於1時，**值與真實值之間的誤差每傳播一層會衰減一次，如果在深層模型中使用sigmoid作為啟用函式，這種現象尤為明顯，將導致模型收斂停滯不前。

深度學習筆記

深度學習筆記

深度學習筆記

深度學習筆記

相關推薦