CS231n 批量歸一化

部分資料**於網路，僅做個人學習之用

內部協變數偏移：深度神經網路的訓練在訓練時，先前的層的權值引數改變會導致層間輸入值的分布情況也隨之改變，這就使神經網路的訓練變得困難。也使我們只能使用較小的學習率、更謹慎的引數初始化，且訓練非線性模型變得非常困難。

訓練過程中，層間的權重會不斷改變和調整，而前面層權重引數的改變會影響後面層的輸入，當網路的深度很大時，層間的關聯性變得很高，前面層的一點改變積累到後面會是很大的影響。也就是經過前面層引數的改變，一層層積累下來，到某一層時的輸入值與上一次訓練（此次引數更新前）的輸入值的分布情況可能會有很大的差距。

而一般的深度神經網路都要求輸入變數在訓練資料和測試資料上的分布是相似的，這是通過訓練資料獲得的模型能夠在測試集獲得好的效果的乙個基本保障。當輸入的分布在引數更新前後有較大改變時，網路要去不斷的適應新的資料分布，進而使得訓練變得異常困難，我們只能使用乙個很小的學習速率和精調的初始化引數來解決這個問題。而且這個中間層的深度越大時，這種現象就越明顯。由於是對層間資料的分析，也即是內部（internal），因此這種現象叫做內部協變數偏移(internal covariate shift)。

將層間輸入值進行歸一化。而「批量」則是因為歸一化操作是對訓練的小批量資料進行的。

批量歸一化這一操作極大地提高了訓練的學習率，也使初始化的引數可以不那麼謹慎，是加速訓練的好方法。

CS231n 批量歸一化

cs231n筆記總結

CS231n理解筆記

cs231n 學習前言

CS231n 批量歸一化

cs231n筆記總結

CS231n理解筆記

cs231n 學習 前言

相關推薦

cs231n 學習前言