常用啟用函式介紹

2021-10-18 17:14:10 字數 2141 閱讀 3803

sigmod函式

函式公式和圖表如下圖

sigmod函式公式

sigmod函式圖

在sigmod函式中我們可以看到,其輸出是在(0,1)這個開區間內,這點很有意思,可以聯想到概率,但是嚴格意義上講,不要當成概率。sigmod函式曾經是比較流行的,它可以想象成乙個神經元的放電率,在中間斜率比較大的地方是神經元的敏感區,在兩邊斜率很平緩的地方是神經元的抑制區。

當然,流行也是曾經流行,這說明函式本身是有一定的缺陷的。

當輸入稍微遠離了座標原點,函式的梯度就變得很小了,幾乎為零。在神經網路反向傳播的過程中,我們都是通過微分的鏈式法則來計算各個權重w的微分的。當反向傳播經過了sigmod函式,這個鏈條上的微分就很小很小了,況且還可能經過很多個sigmod函式,最後會導致權重w對損失函式幾乎沒影響,這樣不利於權重的優化,這個問題叫做梯度飽和,也可以叫梯度瀰散。

函式輸出不是以0為中心的,這樣會使權重更新效率降低。對於這個缺陷,在斯坦福的課程裡面有詳細的解釋。

sigmod函式要進行指數運算,這個對於計算機來說是比較慢的。

2.tanh函式

tanh函式公式和曲線如下

tanh函式公式

tanh函式圖

tanh是雙曲正切函式,tanh函式和sigmod函式的曲線是比較相近的,咱們來比較一下看看。首先相同的是,這兩個函式在輸入很大或是很小的時候,輸出都幾乎平滑,梯度很小,不利於權重更新;不同的是輸出區間,tanh的輸出區間是在(-1,1)之間,而且整個函式是以0為中心的,這個特點比sigmod的好。

一般二分類問題中,隱藏層用tanh函式,輸出層用sigmod函式。不過這些也都不是一成不變的,具體使用什麼啟用函式,還是要根據具體的問題來具體分析,還是要靠除錯的。

3.relu函式

relu函式公式和曲線如下

relu函式公式

relu函式圖

relu(rectified linear unit)函式是目前比較火的乙個啟用函式,相比於sigmod函式和tanh函式,它有以下幾個優點:

在輸入為正數的時候,不存在梯度飽和問題。

計算速度要快很多。relu函式只有線性關係,不管是前向傳播還是反向傳播,都比sigmod和tanh要快很多。(sigmod和tanh要計算指數,計算速度會比較慢)

當然,缺點也是有的:

當輸入是負數的時候,relu是完全不被啟用的,這就表明一旦輸入到了負數,relu就會死掉。這樣在前向傳播過程中,還不算什麼問題,有的區域是敏感的,有的是不敏感的。但是到了反向傳播過程中,輸入負數,梯度就會完全到0,這個和sigmod函式、tanh函式有一樣的問題。

我們發現relu函式的輸出要麼是0,要麼是正數,這也就是說,relu函式也不是以0為中心的函式。

4.elu函式

elu函式公式和曲線如下圖

elu函式公式

elu函式圖

elu函式是針對relu函式的乙個改進型,相比於relu函式,在輸入為負數的情況下,是有一定的輸出的,而且這部分輸出還具有一定的抗干擾能力。這樣可以消除relu死掉的問題,不過還是有梯度飽和和指數運算的問題。

5.prelu函式

prelu函式公式和曲線如下圖

prelu公式

prelu函式圖

prelu也是針對relu的乙個改進型,在負數區域內,prelu有乙個很小的斜率,這樣也可以避免relu死掉的問題。相比於elu,prelu在負數區域內是線性運算,斜率雖然小,但是不會趨於0,這算是一定的優勢吧。

我們看prelu的公式,裡面的引數α一般是取0~1之間的數,而且一般還是比較小的,如零點零幾。當α=0.01時,我們叫prelu為leaky relu,算是prelu的一種特殊情況吧。

總體來看,這些啟用函式都有自己的優點和缺點,沒有一條說法表明哪些就是不行,哪些啟用函式就是好的,所有的好壞都要自己去實驗中得到。

啟用函式介紹

relu對比sigmoid主要變化 1.單側抑制 2.相對寬闊的興奮邊界 3.稀疏啟用性 1 sigmoid函式 曲線很像 s 型 公式 曲線 也叫 logistic 函式,用於隱層神經元輸出 取值範圍為 0,1 它可以將乙個實數對映到 0,1 的區間,可以用來做二分類。它不像svm直接給出乙個分類...

常用啟用函式

優點 能夠把輸入的連續實值變換為0和1之間的輸出,如果是非常大的負數,那麼輸出就是0 如果是非常大的正數,輸出就是1。缺點 1 sigmoid函式的導數範圍是 0,0.25 導數最大都不大於1,容易引起梯度消失 2 公式包含冪運算,導致方向傳播運算速度慢 3 sigmoid函式輸出不是零中心對稱。s...

常用啟用函式

可見,啟用函式能夠幫助我們引入非線性因素,使得神經網路能夠更好地解決更加複雜的問題。s ig moid x 11 e xsigmoid x frac sigmoi d x 1 e x1 s ig moid x 11 e xsigmoid x frac sigmoi d x 1 e x1 sigmoi...