深度學習100問

3x3 是最小的能夠捕獲畫素八鄰域資訊的尺寸。

兩個 3x3 的堆疊卷基層的有限感受野是 5x5 ；三個 3x3 的堆疊卷基層的感受野是7x7，故可以通過小尺寸卷積層的堆疊替代大尺寸卷積層，並且感受野大小不變。

多個 3x3 的卷基層比乙個大尺寸 filter卷基層有更多的非線性（更多層的非線性函式），使得判決函式更加具有判決性。（we incorporate three non-linearrectification layers instead of a single one, which makes the decision function more discriminative）

多個 3x3的卷積層比乙個大尺寸的 filter 有更少的引數，假設卷基層的輸入和輸出的特徵圖大小相同為 c，那麼三個 3x3 的卷積層引數個數 3x（3x3xcxc）=27c ^2；乙個7x7的卷積層引數為49c ^2；所以可以把三個3x3的filter看成是乙個7x7 filter的分解。

2個3x3的感受野為什麼等效於1個5*5？

例：網路輸入28x28

3x3的核

第一層3x3卷積：（28-3）/1+1=26

第二層3x3卷積：（26-3）/1+1=24

5x5的核

第一層5x5卷積：（28-5）/1+1=24

caffe im2col原始碼解析

兩層卷積層：stride*(kernel_size-1)+kernel_size

兩層55的卷積核，步長為2，感受野多大？

2（5-1）+5 = 13

兩層33的卷積核，步長為1，感受野多大？

1（3-1）+3 = 5

（1）選擇合適的損失函式

神經網路的損失函式是非凸的，有多個區域性最低點，目標是找到乙個可用的最低點。非凸函式是凸凹不平的，但是不同的損失函式凸凹起伏的程度不同，例如下述的平方損失和交叉熵損失，後者起伏更大，且後者更容易找到乙個可用的最低點，從而達到優化的目的。

square error(平方損失)

cross entropy(交叉熵損失)

（2）選擇合適的mini-batch size

採用合適的mini-batch 進行學習，一方面可以減少計算量，一方面有助於跳出區域性最優點。batch取太大會陷入區域性最小值，batch取太小會抖動厲害，選擇合適的batch size 很重要。

（3）選擇合適的啟用函式

參考部落格1：

參考部落格2：

（1）densenet和resnet的對比

參考文章1：

參考部落格：

參考部落格1：

參考部落格2：

參考部落格3：

深度學習100問

機器學習100問

深度學習500問

深度學習面試100題

深度學習100問

機器學習100問

深度學習500問

深度學習面試100題

相關推薦