Relu啟用函式及其變種

神經網路中使用啟用函式來加入非線性因素，提高模型的抽象表達能力。relu(rectified linear unit,修正線性單元)

relu公式近似推導::

下面解釋上述公式中的softplus,noisy relu.

softplus函式與relu函式接近,但比較平滑, 同relu一樣是單邊抑制,有寬廣的接受域(0,+inf), 但是由於指數運算,對數運算計算量大的原因,而不太被人使用.並且從一些人的使用經驗來看,效果也並不比relu好.softplus的導數恰好是sigmoid函式。

其他relu變種：

1.noisy relu

relu可以被擴充套件以包括高斯雜訊(gaussian noise):

f(x)=max(0,x+y),y∼n(0,σ(x))

noisy relu 在受限玻爾茲曼機解決計算機視覺任務中得到應用.

2.relu6

relu上界設定: relu相比sigmoid和tanh的乙個缺點是沒有對上界設限.在實際使用中,可以設定乙個上限,如relu6經驗函式: f(x)=min(6,max(0,x))

3.leaky relu

當x<0時,f(x)=αx,其中α非常小,這樣可以避免在x<0時,不能夠學習的情況：f(x)=max(αx,x)

稱為parametric rectifier(prelu),將 α 作為可學習的引數.

當 α 從高斯分布中隨機產生時稱為random rectifier（rrelu）。

當固定為α=0.01時,是leaky relu。

4.elu

exponential linear unit，該啟用函式由djork等人提出,被證實有較高的雜訊魯棒性,同時能夠使得使得神經元的平均啟用均值趨近為 0,同時對雜訊更具有魯棒性。由於需要計算指數,計算量較大。

自歸一化神經網路(self-normalizing neural networks)中提出只需要把啟用函式換成selu就能使得輸入在經過一定層數之後變成固定的分布.

selu是給elu乘上係數 λλ, 即 selu(x)=λ⋅elu(x)