批標準化 Batch Norm

bn作用：

加速收斂

控制過擬合，可以少用或不用dropout和正則

降低網路對初始化權重不敏感

允許使用較大的學習率

一、如何加速收斂？

通過歸一化輸入值/隱藏單元值，以獲得類似的範圍值，可加速學習。

限制了在前層的引數更新會影響數值分布的程度，使層的輸出更加穩定，神經網路的之後的層就會有更堅實的基礎（減弱了後層的引數因前層引數發生變化而受到的影響） **減弱了前層引數的作用與後層引數的作用之間的聯絡，使得網路每層都可以自己學習，稍稍獨立於其他層，有助於加速整個網路的學習。 **

二、為什麼說bn也會起到一定的正則化作用？

對於dropout來講，給每個隱藏單元一定概率置零的可能，這樣就相當於給網路引入了雜訊。迫使dropout後部單元不過分依賴於前面任何乙個隱藏單元。

而bn，因為是在mini-batch上計算mean、variance，而不是整個資料集上。均值和方差有一些小噪音，在進行縮放過程，γ、β也會引入雜訊，這樣和dropout類似，它往每個隱藏層的啟用值上增加了噪音，所以起到了一定的正則化作用。

當mini-batch變大時，由於均值方差更加接近真實值，所以雜訊會減小，就會減少正則化的效果。

三、使用bn為何可以不使用引數b?

\[z=wx+b

\]無論b為何值，去均值之後結果都是一樣的，所以說，使用batch norm時可以不使用偏置b。

這個偏置的效果在標準化中縮放過程中能體現。

\[\tilde = \gamma z+\beta