報頭中的偏移量作用網路中BN層的作用

bn層的作用主要有三個：

加快網路的訓練和收斂的速度

控制梯度**防止梯度消失

防止過擬合

以sigmoid函式為例，sigmoid函式使得輸出在[0,1]之間，實際上當x道了一定的大小，經過sigmoid函式後輸出範圍就會變得很小

梯度消失：在深度神經網路中，如果網路的啟用輸出很大，其對應的梯度就會很小，導致網路的學習速率就會很慢，假設網路中每層的學習梯度都小於最大值0.25，網路中有n層，因為鏈式求導的原因，第一層的梯度將會小於0.25的n次方，所以學習速率相對來說會變的很慢，而對於網路的最後一層只需要對自身求導一次，梯度就大，學習速率就會比較快，這就會造成在乙個很深的網路中，淺層基本不學習，權值變化小，而後面幾層網路一直學習，後面的網路基本可以表徵整個網路，這樣失去了深度的意義。（使用bn層歸一化後，網路的輸出就不會很大，梯度就不會很小）

梯度**：第一層偏移量的梯度=啟用層斜率1x權值1x啟用層斜率2x…啟用層斜率(n-1)x權值(n-1)x啟用層斜率n，假如啟用層斜率均為最大值0.25，所有層的權值為100，這樣梯度就會指數增加。（使用bn層後權值的更新也不會很大）

bn演算法防止過擬合：在網路的訓練中，bn的使用使得乙個minibatch中所有樣本都被關聯在了一起，因此網路不會從某乙個訓練樣本中生成確定的結果，即同樣乙個樣本的輸出不再僅僅取決於樣本的本身，也取決於跟這個樣本同屬乙個batch的其他樣本，而每次網路都是隨機取batch，這樣就會使得整個網路不會朝這乙個方向使勁學習。一定程度上避免了過擬合。

因為非線性單元的輸出分布形狀會在訓練過程中變化，歸一化無法消除他的方差偏移，相反的，全連線和卷積層的輸出一般是乙個對稱,非稀疏的乙個分布，更加類似高斯分布，對他們進行歸一化會產生更加穩定的分布。其實想想也是的，像relu這樣的啟用函式，如果你輸入的資料是乙個高斯分布，經過他變換出來的資料能是乙個什麼形狀？小於0的被抑制了，也就是分布小於0的部分直接變成0了，這樣不是很高斯了

報頭中的偏移量作用網路中BN層的作用

C 中struct成員的偏移量的計算

Pandas中的時間序列的頻率偏移量

ANSI C中取得結構體欄位偏移量的常用方法

報頭中的偏移量作用 網路中BN層的作用

C 中struct成員的偏移量的計算

Pandas中的時間序列的頻率 偏移量

ANSI C中取得結構體欄位偏移量的常用方法

相關推薦

報頭中的偏移量作用網路中BN層的作用

Pandas中的時間序列的頻率偏移量