神經網路學習筆記(二)

2021-07-01 18:28:11 字數 2147 閱讀 5616

單個神經元可以解決二分類問題和線性可分問題,下面就這兩個問題展開討論。

如果輸出激勵函式採用sigmoid或hyperbolic tangent函式,此時神經元的作用等價於計算條件概率p(

y=1|

x),當上述條件概率大於0.5時,將樣本歸為

1 類,否則歸為

0類。當然,如果是hyperbolic tangent函式的話,則分別歸為

1 類和−1

類。此時,亦稱作logistic 回歸。

w 是分類超平面的法向量,

b是控制超平面的位置,因此我們總能找到一組合適的引數

w 和

b,使得其確定的超平面可以將兩類資料點分開,亦即單個神經元可以解決線性可分問題。

異或問題是典型的線性不可分問題,其影象如下:

我們找不到任何一條直線,可以將兩類資料點分開,因此,不存在對應的分類超平面,自然也就找不到相應的引數

w 和

b,亦即單個神經元無法解決線性不可分問題。

為了解決這個線性不可分問題,可以將輸入

x 對映到另外乙個線性可分的空間裡,再在這個線性可分的空間裡尋找分類超平面。

如上圖所示,我們把輸入(x

1,x2

)對映到(a

nd(x

1,x¯

2),a

nd(x

¯1,x

2)) 空間,此時我們發現原空間中的兩個圓圈類別被對映到乙個位置,而兩個三角形類別的資料點則是被互換了位置,這樣就把乙個線性不可分問題轉化為乙個線性可分問題,最終加以解決。

於是我們得出結論:單個神經元只能解決線性可分問題,對於線性不可分問題,則必須通過其他神經元的對映才可能解決。

上面談到單個神經網路無法解決線性不可分問題,這就意味著必須解決多神經元連線時的表示和計算問題。

單隱層神經網路是最簡單的神經網路,其典型結構如下:

其中最底層的x1

,...

,xj,

...x

d 為輸入向量,中間為隱藏層,最上面為輸出層。

隱藏層的預激勵為:a(

x)j=

b(1)

j+∑i

w(1)

ijxi

若寫成向量形式,即為:a(

x)=b

(1)+

w(1)

tx於是,隱藏層的激勵為:h(

x)=g

(a(x

))此神經網路的最終輸出為:f(

x)=o

(b(2

)+w(

2)th

(x))

下面討論在上述公式中,各變數的維度問題。假設輸入向量的維度為

d ,隱藏層有

m個神經元,則各變數的維度如下表:

變數名稱

維度用途

x d

×1輸入向量w(

1)d×

m 權重矩陣,控制輸入向量向隱層對映b(

1)m×

1 輸入向量向隱層對映的偏置向量a(

x)m×

1 隱層的預激勵w(

2)m×

1 控制隱層向輸出層對映的權重向量b(

2)1×

1 隱層向輸出層對映的偏置向量f(

x)1×

1 最終輸出激勵

求解一多分類問題,我們需要:

現有乙個

c 分類問題,即c∈

,為了解決這個多分類問題,我們定義softmax激勵函式為o(

a)=s

oftm

ax(a

)=[e

a1∑c

eac,

ea2∑

ceac

,...

,eac

∑cea

c]t

softmax激勵函式可以很好地滿足以上兩個要求。其主要特徵有:

機器學習筆記(二) 神經網路

神將網路在解決多分類問題時效果比logistics回歸的效果要好,作為現在最流行的機器學習演算法,我們首先來簡單了解一下 和我們人的神經組成一樣,神將網路也是由神經元組成,先來介紹最普遍的mp神經元。在生物的神經網路中,假設一些神經元處於興奮狀態,那麼這些神經元就會向與之相連線的神經元傳送化學物質,...

神經網路學習筆記

隱含層數越多,越容易擬合複雜函式 為了擬合複雜函式需要的隱含節點數目,基本上隨著隱含層數目的增加呈現指數下降的趨勢,也就是說層數越多,神經網路所需要的隱含節點可以越少。層數越深,概念越抽象,需要背誦的知識點 神經網路的隱含節點 就越少。但是,層數越多,容易出現過擬合以及引數難以除錯以及梯度瀰散的問題...

神經網路學習筆記

sigmoid函式是一種常見的擠壓函式,其將較大範圍的輸入擠壓到 0 1 區間內,其函式的表示式與形狀如下圖所示 該函式常被用於分類模型,因為其具有很好的乙個特性f x f x 1 f x 這個函式也會被用於下面的神經網路模型中做啟用函式。生物的神經網路系統中,最簡單最基本的結構是神經元。每個神經元...