深度學習簡單理解

2021-07-25 13:56:32 字數 2276 閱讀 7511

深度學習的一些概念理解(共享權重最大池化啟用函式殘差網路):

深度學習中有乙個概念,叫共享權重,就是乙個層中是共享權重的,這樣做的好處有兩個:

a 能夠減少引數的數量,加速訓練

b 由於共享權重,使得整幅圖對應的這個權重下求的的特徵具有平移不變性

個人對於共享權重的理解:其實所謂的共享權重,比如對於乙個5x5的卷積,不管影象多大,全部使用這樣的5x5的卷積核去做卷積,由於卷積大小的5x5,共有25個引數,而對影象全部使用這25個引數去做卷積,那麼就形成了所謂的共享權重,即對整個影象求的是相同的特徵,這樣就考慮的整個影象的空間結構,對於影象的平移等具有魯棒性,因為乙個單獨的特徵是對整幅圖來求,即使平移了,在乙個地方找不到,在另乙個地方也找得到。而不同的5x5的卷積核,會得到不同的特徵,因此,多個不同的5x5的卷積核去做卷積,就會得到多個不同的特徵。而對於同乙個圖,如何訓練出不同的核引數?這個問題還沒弄明白。

最大池化(個人的理解是有一部分是降取樣,常用的有最大池化,平均值池化,比如對於乙個圖,使用2x2的核,對影象流動處理,將這2x2的核中的四個點,如果只取其最大值,就叫最大池化,如果取四個點的均值就叫平均池化)

啟用函式:啟用函式是用來引入非線性因素的。網路中僅有線性模型的話,表達能力不夠。比如乙個多層的線性網路,其表達能力和單層的線性網路是相同的(可以化簡乙個3層的線性網路試試)。我們前邊提到的卷積層、池化層和全連線層都是線性的,所以,我們要在網路中加入非線性的啟用函式層。一般乙個網路中只設定乙個啟用層。

啟用函式一般具有以下性質:

非線性: 線性模型的不足我們前邊已經提到。

處處可導:反向傳播時需要計算啟用函式的偏導數,所以要求啟用函式除個別點外,處處可導。

單調性:當啟用函式是單調的時候,單層網路能夠保證是凸函式。

輸出值的範圍: 當啟用函式輸出值是有限的時候,基於梯度的優化方法會更加穩定,因為特徵的表示受有限權值的影響更顯著;當啟用函式的輸出是無限的時候,模型的訓練會更加高效,不過在這種情況小,一般需要更小的learning rate.

殘差網路:待續。。。

對深度學習網路的乙個例子的理解(

1 輸入是乙個32x32的影象,記為input

2 c1層對input進行卷積,使用核大小是5x5,卷積後得到乙個28x28的影象,每乙個畫素對應乙個特徵,因此也可以說得帶乙個特徵對映(因為這個特徵圖都是使用的乙個卷積核),而我們可以人為設定特徵對映的個數,比如要得到6個特徵對映,那麼就是要得到6個不同的5x5的核,每個不同的5x5的核還需要加上乙個偏置,那麼總的引數是(5*5+1)*6=156,連線的個數是156*28*28=122304

3 s2層對得到的6個不同的特徵對映進行下取樣,得到6個14x14的影象,每個特徵圖進行下取樣的時候有乙個可訓練的相乘的係數,和乙個可訓練的偏置。那麼總的引數就是6*2=12,總的連線個數是14*14*6*5=5880個連線(這個引數的計算有點不懂,主要是為何是5)

4 c3層再次進行卷積,卷積核的大小還是5x5,由於上一層的大小是14x14,因此,這裡卷積後的大小是10x10,這裡人為設定有16個不同的卷積核,需要注意的是,由於上一層的特徵圖個數是6,那麼這裡要對映到16,是通過將上一層的6個不同的特徵進行組合,來得到的,比如這一層16個特徵中的第乙個,可以將上一層中的1,2,3共享相同的5x5的核,對於16個特徵中的第二個,可以將上一層中的2,3,4共享相同的5x5的核,通過這種組合的方式,就可以得到16個特徵映**。使用這種不完全連線的機制,原因有2:一是將連線的數量保持在合理的範圍,而是破壞了網路的對稱性,迫使其抽取不同的特徵:例如,存在的乙個方式是:c3的前6個特徵圖以s2中3個相鄰的特徵圖子集為輸入。接下來6個特徵圖以s2中4個相鄰特徵圖子集為輸入。然後的3個以不相鄰的4個特徵圖子集為輸入。最後乙個將s2中所有特徵圖為輸入。這樣c3層有1516個可訓練引數和151600個連線。可訓練引數計算方式:6*25*3+6*25*4+3*25*4+16=1516,最後的16應該指的是每個特徵圖都有的乙個偏置

5 s4層,是乙個降取樣,將16個10x10的特徵圖變成16個5x5的特徵圖,每個降取樣有乙個相乘的係數和乙個偏置係數,那麼總的引數是16*2=32個,總的連線是2000個

6 c5層,是乙個卷積層,卷積大小是5x5,設定的特徵圖的個數120個,每乙個都是全連線,那麼總的引數是120*25*16+120=48120個引數,注意,對於120個特徵圖中第乙個a,其與16個特徵圖是全連線,是不共享權重的,也就是說,這a對應有16*25+1=401個引數

7 f6層有84個引數(之所以選擇這個數字的原因是來自於輸出層的設計),與c5層全連線,有84*120+84=10164個引數

深度學習幾個名詞的簡單理解 梯度

梯度 梯度是乙個向量求導的導數 f的梯度是包含所有偏導數的向量。向量的導數還是乙個向量,所以梯度既是導數又是向量。梯度的方向 與這個函式在該點增長最快的方向一致。梯度的大小 梯度 max 方向導數 梯度下降法作用 求損失函式 loss function 最小值 吳恩達筆記 沿著下坡走,找到區域性最小...

深度學習 卷積理解

一.深度卷積神經網路學習筆記 一 假設輸入影象尺寸為w,卷積核尺寸為f,步幅 stride 為s 卷積核移動的步幅 padding使用p 用於填充輸入影象的邊界,一般填充0 那麼經過該卷積層後輸出的影象尺寸為 w f 2p s 1。2.它寫出為什麼會用padding?卷積核大小該如何確定?strid...

深度學習 dropout理解

深度神經網路的訓練是一件非常困難的事,涉及到很多因素,比如損失函式的非凸性導致的區域性最優值 計算過程中的數值穩定性 訓練過程中的過擬合等。其中,過擬合是很容易發生的現象,也是在訓練dnn中必須要解決的問題。過擬合我們先來講一下什麼是 過擬合 過擬合是指模型訓練到一定程度後,在訓練集上得到的測試誤差...