深度學習筆記（一）2020 12 06

1.為什麼用卷積？

引數共享：提取某特徵一部分的濾波器可以應用到這張其他部分很好的提取特徵，因此共享引數也取得不錯的效果。

稀疏連線：乙個輸出畫素點只與輸入的3*3個畫素點有關。

這兩種機制減少了引數，並能取得很好的平移不變性。

2. 端到端的思想

深度學習則為我們提供了另一種正規化即「端到端」學習方式，整個學習流程並不進行人為的子問題劃分，而是完全交給深度學習模型直接學習從原始輸入到期望輸出的對映。相比分治策略，「端到端」的學習方式具有協同增效的優勢，有更大可能獲得全域性最優解。

3.池化層的好處

特徵不變性、特徵降維、防止過擬合方便優化。

4.全連線層

全連線層可以看作輸入1*a向量，乘以乙個a*b的矩陣，得到乙個 b*1的向量，即引數是矩陣a*b，數量是a*b加上乙個偏差c共有a*b+1個引數，b是超引數是自己設定的，是神經元的個數，輸出b的任何乙個元素都由a的每個元素及其引數/權重決定，即bi=wi1*a1+wi2*a2+…wij*aj+c。在這裡也可以看出全連線層接近於傳統的神經網路，且引數個數遠大於卷積層。

5.關於偏差

卷積層和全連線層的引數都包括偏差，卷積核為3*3*1共有3個則卷積核引數有3*3*1*3共27個，每個卷積核進行卷積計算再各加上1各偏差，所以乙個卷積層有（3*3*1+1）*3個即30個引數，這裡的h、w、c都是超引數(自己設定的不訓練的)。同理，全卷積層的引數個數也包含偏差，即a*b+1，這裡的偏差就是只有乙個了，卷積層是有幾個卷積核幾個偏差。

6.資料增強

水平、豎直翻轉，影象旋轉。

目的是防止過擬合，增加模型的魯棒性。

有線上增強和線下增強之分。

7.relu

啟用函式可以引入非線性因素，解決線性模型所不能解決的問題。

為什麼引入relu：

第一，採用sigmoid函式，算啟用函式時（指數運算），計算量大。而使用relu，整個計算節省了很多。

第二，對於深層網路，sigmoid函式反向傳播時，很容易出現梯度消失的情況，(sigmoid接近飽和區的時候，變化太緩慢，導數趨於0）從而無法完成深層網路的訓練。

第三，relu會使一部分神經元的輸出為0，這樣就造成了網路的稀疏性，並且減少了引數之間互相依存的關係，緩解了過擬合的發生。

如果沒有bn沒有relu那麼兩層卷積層其實就相當於一層卷積層。

為什麼relu能進行非線性對映：實際使用中，relu跟在卷積層後，實際上卷積操作相當於進行wx操作，,每乙個畫素由前一層特徵圖多個畫素決定，而relu每次對乙個輸入畫素進行操作，乙個畫素輸出輸入到relu裡面，relu根據函式輸出，這樣就完成了非線性對映的過程即參考閾值函式對異或的劃分。

8. bn

對於原來的網路，如果簡單地增加深度，會導致梯度瀰散或梯度**。

對於該問題的解決方法是正則化初始化和中間的正則化層（batch normalization），這樣的話可以訓練幾十層的網路。

9.resnet

f是求和前網路對映，h是從輸入到求和後的網路對映。比如把5對映到5.1，那麼引入殘差前是f』(5)=5.1，引入殘差後是h(5)=5.1, h(5)=f(5)+5, f(5)=0.1。這裡的f』和f都表示網路引數對映，引入殘差後的對映對輸出的變化更敏感。比如s輸出從5.1變到5.2，對映f』的輸出增加了1/51=2%，而對於殘差結構輸出從5.1到5.2，對映f是從0.1到0.2，增加了100%。明顯後者輸出變化對權重的調整作用更大，所以效果更好。殘差的思想都是去掉相同的主體部分，從而突出微小的變化，看到殘差網路第一反應就是差分放大器。

對於殘差鏈結後維數不匹配的問題，有兩種策略，一種是採用0padding，另一種是採用1 * 1卷積。實際上renet 在塊之間是有pooling操作的。1卷積可以改變通道數，0padding可以改變h和w。

10. 1 * 1 卷積

降維、公升維，不改變特徵圖大小，改變通道數

後面加啟用函式，增加非線性運算

參考：

深度學習筆記（一）2020 12 06

深度學習筆記（一）

深度學習筆記（一）

深度學習筆記（一）

相關推薦