十二 人工神經元的其他模型 tanh ReLU

2021-08-07 15:57:13 字數 1803 閱讀 5885

本部落格主要內容為圖書《神經網路與深度學習》和national taiwan university (ntu)林軒田老師的《machine learning》的學習筆記,因此在全文中對它們多次引用。初出茅廬,學藝不精,有不足之處還望大家不吝賜教。

理論上講s型神經元構建起來的神經網路可以計算任意函式,但實踐中使用其他神經元有時效果會好於s型神經元。對於不同的應用,其他型別的神經元組成的神經網路可能學習得更快或者在測試機上泛化的更好。

tanh [『tæn] 神經元使用雙曲正切(hyperbolic tangent)函式替換了 s 型函式,即 ⎧⎩

⎨z=w

x+bt

anh(

z)=e

z−e−

zez+

e−z

進行簡單的代數運算,我們可以得到 σ(

z)=1

+tan

h(z/

2)2

因此可以將 tanh 神經元看作是 s 型神經元按比例變化的版本。

繪製出tanh 神經元的形狀如圖1

圖 1. tanh 神經元的影象

tanh 神經元與 s 型神經元之間的乙個差異就 tanh 神經元的輸出的值域是 (−

1,1)

,而 s 型神經元輸出的值域是 (0

,1) ,所以常常將tanh 神經元應用於需要將最終的輸出進行正則化的神經網路中。並且之前提到的反向傳播和隨機梯度下降的方法也可以用於這個神經元上。

存在一些理論論點和實踐證據表明 tanh 有時候表現更好。從啟發式的角度考慮,假設現在只考慮 wl

+1jk

,由反向傳播的規則可以知道相關梯度為 al

kδl+

1jk 。因為所有的啟用值都是正數,所以梯度的符號就和 δl

+1jk

一致。這意味著如果 δl

+1jk

為正,那麼所有的權重都會在梯度下降時減少,而如果為負,那麼所有的權重都會在梯度下降時增加。換言之,針對同一的神經元的所有權重都會或者一起增加或者一起減少。這就有問題了,因為某些權重可能需要有相反的變化。這樣的話,只能是某些輸入啟用值有相反的符號才可能出現,所以用 tanh 替換就能夠達到這個目的。因為 tanh 是關於

0 對稱的,我們甚至期望隱藏層的啟用值能夠大概地在正負間保持平衡,這樣其實可以保證對權重更新沒有系統化的單方面的偏置。然而實際上,對很多任務,tanh 在實踐中給出了微小的甚至沒有效能提公升。

修正線性神經元(rectified linear neuron)或者修正線性單元(rectified linear unit),簡記為 relu。輸入為

x,權重向量為

w ,偏置為

b的 relu 神經元的輸出是 ma

x(0,

wx+b

) 該函式的影象如圖2

圖 2. relu 神經元的影象

雖然函式形狀與之前的兩種神經元的形狀不同,但是 relu 也可以計算任意函式,採用反向傳播方法和隨機梯度下降的方法。

從啟發性的角度考慮這種神經元的優點主要在於兩點。首先提高 relu 的權值輸入並不會導致其飽和,所以就不存在前面那樣的學習速度下降。另外,當權值輸入是負數的時候,梯度就消失了,所以神經元就完全停止了學習。

只是在某些**上有關於某一種神經元適合某一種應用的討論,具體如何根據所面臨的問題仍是乙個待研究的問題。

簡單的神經元模型

其函式表達如下所示 y b i xiwi y b ix iwi其中,w w 表示權值,x role presentation style position relative x x表示輸入。y y 表示輸出。線性神經元模型中,輸入xi可以被看作是 來自其他神經元的動作電位,該動作電位引起突觸的興奮。...

單個人工神經元的實現

人工神經元 神經元是構成神經網路的最基礎單元 網路結構 人工神經網路由神經元模型構成,這種由許多神經元組成的資訊處理網路具有並行分布結構。輸入資料採用二維陣列data儲存,輸入4組輸入資料 0,0 0,1 1,0 1,1 計算人工神經元的程式的處理步驟如下 單個人工神經元對於輸入訊號計算輸出值的計算...

強人工智慧 抑制神經元的意義

版本 0.1 在計算機中,二進位制是最基本的計數單元,這也是能夠表達資訊所使用的最小進製。而實際上當今大部分計算機的cpu計算的頻寬已經到了32或者64位,而記憶體 顯示卡的晶元位數已經提高到了256,甚至更高。這些數字都是二進位制的倍數,所以能和二進位制很容易的轉換。二進位制是由1和0組成的,我們...