吳恩達深度學習神經網路的優化 1

選擇最佳的train/dev/test sets非常重要。除此之外，構建神經網路時，需要設定的引數很多：神經網路層數，神經元個數，學習率的大小。啟用函式的選擇等等。實際上很難第一次就確定好這些引數，大致過程是：

先確定初始引數，構建神經網路模型，然後通過**實現該模型，之後進行試驗確定模型的效能。根據效能再不斷調整引數，重複上述過程，直到讓神經網路模型最優。

由上述可知，深度學習是乙個不斷迭代優化的過程，效率取決於單次試驗所花費的時間，而設定合適的train/dev/test sets數量，能有效提高訓練效率。

對於如今的大資料樣本，train/dev/test sets的比例通常可以設定為98%/1%/1%，或者99%/0.5%/0.5%。樣本資料量越大，相應的dev/test sets的比例可以設定的越低一些。

另外乙個值得注意的問題是：訓練樣本和測試樣本分佈上不匹配，即訓練樣本和測試樣本來自於不同的分布。解決方法就是盡量使兩者處於統一分布。

具體做法有：對於一張，可以讓轉向或者擷取的一部分，識別一些數字時可以使數字進行稍微的變形等等。

如下圖所示，顯示了二維平面上，可見，高偏差(high bias)對應著欠擬合，而高方差(high variance)對應著過擬合。

減少high bias的方法通常是增加神經網路的隱藏層個數、神經元個數，訓練時間延長，選擇其它更複雜的模型等。

減少high variance的方法通常是增加訓練樣本資料，進行正則化regularization，選擇其他更複雜的nn模型等。

邏輯回歸中採用l2正則化的表示式為：

λ就是正則化引數（超引數的一種）。可以設定λ為不同的值，在dev set中進行驗證，選擇最佳的λ。

因為w的維度很大，b只是乙個常數，很大程度上b對整體模型的影響很小，所以可以不對b進行正則化。

由於加入了正則化項，梯度下降演算法中的dw[

l]dw^dw

[l]計算表示式需要做如下修改

由於加上了正則項，dw[

l]dw^dw

[l]有個增量，在更新w[l

]w^w[l]

的時候，會多減去這個增量，使得w[l

]w^w[l]

比沒有正則項的值要小一些。不斷迭代更新，不斷地減小。

為什麼正則化能夠有效避免high variance，防止過擬合呢？

當λ很大時，w就會很小接近於0，意味著該神經網路模型中的某些神經元實際的作用很小，可以忽略。從效果上來看，其實是將某些神經元給忽略掉了。這樣原本過於複雜的神經網路模型就變得不那麼複雜了，而變得非常簡單化了

第二種防止過擬合的方法：dropout

dropout是指在深度學習網路的訓練過程中，對於每層的神經元，按照一定的概率將其暫時從網路中丟棄。也就是說，每次訓練時，每一層都有部分神經元不工作，起到簡化複雜網路模型的效果，從而避免發生過擬合。

對於同一組訓練資料，利用不同的神經網路訓練之後，求其輸出的平均值可以減少overfitting。dropout就是利用這個原理，每次丟掉一定數量的隱藏層神經元，相當於在不同的神經網路上進行訓練，這樣就減少了神經元之間的依賴性，即每個神經元不能依賴於某幾個其他的神經元。

此方法在計算機視覺應用很多，其他應用很少。

第三種防止過擬合的方法：early stoping

乙個神經網路模型隨著迭代訓練次數增加，train set error一般是單調減小的，而dev set error 先減小，之後又增大。也就是說訓練次數過多時，模型會對訓練樣本擬合的越來越好，但是對驗證集擬合效果逐漸變差，即發生了過擬合。因此，迭代訓練次數不是越多越好，可以通過train set error和dev set error隨著迭代次數的變化趨勢，選擇合適的迭代次數，即early stopping。

但是early stopping的做法通過減少得帶訓練次數來防止過擬合，這樣j就不會足夠小.

吳恩達深度學習神經網路的優化 1

吳恩達神經網路和深度學習

吳恩達深度學習神經網路和深度學習

神經網路和深度學習吳恩達神經網路基礎

吳恩達深度學習 神經網路的優化 1

吳恩達神經網路和深度學習

吳恩達 深度學習 神經網路和深度學習

神經網路和深度學習 吳恩達 神經網路基礎

相關推薦

吳恩達深度學習神經網路的優化 1

吳恩達深度學習神經網路和深度學習

神經網路和深度學習吳恩達神經網路基礎