ReLU為什麼比Sigmoid效果好

relu為什麼比sigmoid效果好

附：雙曲函式類似於常見的(也叫圓函式的)三角函式。基本雙曲函式是雙曲正弦"sinh"，雙曲余弦"cosh"，從它們匯出雙曲正切"tanh"

sigmod函式：

relu函式：

綜合：

為什麼通常relu比sigmoid和tanh強，有什麼不同？

1、相比sigmoid和tanh，relu摒棄了複雜的計算（這裡指的是冪運算），提高了運算速度；

2、對於深層的網路而言，sigmoid和tanh函式反向傳播的過程中，飽和區域非常平緩，接近於0，容易出現梯度消失的問題，減緩收斂速度。relu的gradient大多數情況下是常數，有助於解決深層網路的收斂問題。

3、relu會使一部分神經元的輸出為0，這樣就造成了網路的稀疏性，並且減少了引數的相互依存關係，緩解了過擬合問題的發生

4、relu的另乙個優勢是在生物上的合理性，它是單邊的，相比sigmoid和tanh，更符合生物神經元的特徵。relu更容易學習優化。因為其分段線性性質，導致其前傳，後傳，求導都是分段線性。而傳統的sigmoid函式，由於兩端飽和，在傳播過程中容易丟棄資訊

第乙個問題：為什麼引入非線性激勵函式？

如果不用激勵函式（其實相當於激勵函式是f(x) = x），在這種情況下你每一層輸出都是上層輸入的線性函式，很容易驗證，無論你神經網路有多少層，輸出都是輸入的線性組合，與沒有隱藏層效果相當，這種情況就是最原始的感知機（perceptron）了。

正因為上面的原因，我們決定引入非線性函式作為激勵函式，這樣深層神經網路就有意義了（不再是輸入的線性組合，可以逼近任意函式）。最早的想法是sigmoid函式或者tanh函式，輸出有界，很容易充當下一層輸入（以及一些人的生物解釋balabala）。

第二個問題：為什麼引入relu呢？

第一，採用sigmoid等函式，算啟用函式時（指數運算），計算量大，反向傳播求誤差梯度時，求導涉及除法，計算量相對大，而採用relu啟用函式，整個過程的計算量節省很多。

第二，對於深層網路，sigmoid函式反向傳播時，很容易就會出現梯度消失的情況（在sigmoid接近飽和區時，變換太緩慢，導數趨於0，這種情況會造成資訊丟失），從而無法完成深層網路的訓練。

第三，relu會使一部分神經元的輸出為0，這樣就造成了網路的稀疏性，並且減少了引數的相互依存關係，緩解了過擬合問題的發生