Python與人工神經網路（8）改進神經網路

話說，有沒有人想過這些引數是怎麼來的。其實我猜作者寫到這部分的時候也應該很蛋疼，因為他說是試出來的，目前這個領域的研究並沒有特別好的成果，多半靠經驗和試驗，作者就此傳授了一些經驗給我們：

學習速率引數η：

所以學習速率，就是在隨機梯度下降演算法中下降的快慢，我們來看乙個示例圖：

假設這個曲面就是成本函式，我們就在這個曲面內需要隨機梯度下降，如果步子很小，那會非常穩妥，c會一直下降，直到最低點附近，但是代價就是訓練速度很慢。如果步子太大，很容易一步就從這邊越過了谷底，跨到了對面。所以在試的過程中，可以採取每次減少多少倍的方式，比如第一次是5，第二次是0.5，監測成本函式變化，如果訓練的前幾個週期穩步減小，那就差不多了，然後進行微調。

不過這麼看，應該是前面的週期用大一點的η值，後面的週期用小一點的η值比較靠譜，在以後的章節我們會提到。

訓練週期：

訓練週期我之前在說過度擬合的時候有提到過，就是得監測識別率，如果開始停滯不前，就可以停了。不過這裡一般不會一旦識別率不上公升了就停止訓練，會先觀察個多少週期，比如10或者15，最後的訓練週期原始加上這個觀察期的。

正則化引數：

首先採用沒有正則化的神經網路確定出η值，然後再來試λ值。針對這個問題，作者給的建議是從1開始，然後選取十倍的速率，增大或者減小，到差不多之後微調。

隨機抽取計算梯度的個數：

這裡可能需要補課，因為之前我沒提到，就是為什麼要隨機抽取n個去算梯度，而不是乙個個，一步乙個腳印的算呢？因為numpy矩陣求和賊快，而用迴圈算n次賊慢呀。所以這個引數跟η一樣，選小了，訓練就會比較慢，而選大了，可能訓練乙個週期才更新個三五次w值和b值，反饋不夠明顯。所以這方面的權衡，還是得自己去比較。作者在書裡面說，他選個10，就是瞎選的( ╯□╰ )。

最後的最後，在確定這些引數的時候，一定不要用全部的資料試，用少量的就可以了，提高試驗的速度。第二是一硬要用驗證資料集，不要使用測試資料集，這個原因在講過度擬合的那期說過，就不贅述了。

Python與人工神經網路（8）改進神經網路

神經網路基礎與人工神經網路

人工神經網路多層神經網路

人工神經網路

Python與人工神經網路（8） 改進神經網路

神經網路基礎與人工神經網路

人工神經網路 多層神經網路

人工神經網路

相關推薦

Python與人工神經網路（8）改進神經網路

人工神經網路多層神經網路