22 神經網路中啟用函式的真正意義

非線性：即倒數不是常數。這個條件是多層神經網路的基礎，保證多層網路不退化成單層線性網路，這也是啟用函式的意義所在。

幾乎處處可微：可微保證了在優化中梯度的可計算性。傳統的啟用函式如sigmoid等滿足處處可微。對於分段線性函式比如relu只滿足幾乎處處可微。對於sgd演算法來說，由於幾乎不可能收斂到梯度接近零的位置，有限的不可微點對於優化結果不會有很大影響。

計算簡單：非線性函式有很多，但啟用函式在神經網路前向的計算次數與神經元的個數成正比，因此簡單的非線性函式更適合用作啟用函式。

非飽和性：飽和是指在某些區間梯度接近於零(即梯度消失)，使得引數無法繼續更新。

單調性：即倒數符號不變，這個性質大部分啟用函式都有，單調性使得在啟用函式處的梯度方向不會經常改變，從而讓訓練更容易收斂。

輸出範圍有限：有限的輸出範圍使得網路對於一些比較大的輸入也會比較穩定，這也是為什麼早期的啟用函式都以此類函式為主。

接近恒等變換：即約等於x。

引數少：大部分啟用函式都是沒有引數的。

歸一化：這是最近提出的概念，對應的啟用函式時selu，主要思想是使樣本分佈自動歸一化到零均值、單位方差的分布，從而穩定訓練。在這之前這種歸一化的思想也被用於網路結構的設計，比如batch normalization。