Pytorch教程加速神經網路訓練

torch and numpy

變數 (variable)

激勵函式

關係擬合（回歸）

區分型別 (分類)

快速搭建法

批訓練加速神經網路訓練

optimizer優化器

卷積神經網路 cnn

卷積神經網路（rnn、lstm）

rnn 迴圈神經網路 (分類)

rnn 迴圈神經網路 (回歸)

自編碼 (autoencoder)

dqn 強化學習

生成對抗網路 (gan)

為什麼 torch 是動態的

gpu 加速運算

過擬合 (overfitting)

批標準化 (batch normalization)

包括以下幾種模式:

越複雜的神經網路 , 越多的資料 , 我們需要在訓練神經網路的過程上花費的時間也就越多. 原因很簡單, 就是因為計算量太大了. 可是往往有時候為了解決複雜的問題, 複雜的結構和大資料又是不能避免的, 所以我們需要尋找一些方法, 讓神經網路聰明起來, 快起來.

最基礎的方法就是 sgd 啦, 想像紅色方塊是我們要訓練的 data, 如果用普通的訓練方法, 就需要重複不斷的把整套資料放入神經網路 nn訓練, 這樣消耗的計算資源會很大.

我們換一種思路, 如果把這些資料拆分成小批小批的, 然後再分批不斷放入 nn 中計算, 這就是我們常說的 sgd 的正確開啟方式了. 每次使用批資料, 雖然不能反映整體資料的情況, 不過卻很大程度上加速了 nn 的訓練過程, 而且也不會丟失太多準確率.

如果運用上了 sgd, 你還是嫌訓練速度慢, 那怎麼辦?

事實證明, sgd 並不是最快速的訓練方法, 紅色的線是 sgd, 但它到達學習目標的時間是在這些方法中最長的一種. 我們還有很多其他的途徑來加速訓練.

大多數其他途徑是在更新神經網路引數那一步上動動手腳. 傳統的引數 w 的更新是把原始的 w 累加上乙個負的學習率(learning rate)乘以校正值 (dx). 這種方法可能會讓學習過程曲折無比, 看起來像喝醉的人回家時, 搖搖晃晃走了很多彎路.

所以我們把這個人從平地上放到了乙個斜坡上, 只要他往下坡的方向走一點點, 由於向下的慣性, 他不自覺地就一直往下走, 走的彎路也變少了. 這就是 momentum 引數更新. 另外一種加速方法叫adagrad.

這種方法是在學習率上面動手腳, 使得每乙個引數更新都會有自己與眾不同的學習率, 他的作用和 momentum 類似, 不過不是給喝醉酒的人安排另乙個下坡, 而是給他一雙不好走路的鞋子, 使得他一搖晃著走路就腳疼, 鞋子成為了走彎路的阻力, 逼著他往前直著走. 他的數學形式如上圖所示.

接下來又有什麼方法呢? 如果把下坡和不好走路的鞋子合併起來, 是不是更好呢? 沒錯, 這樣我們就有了 rmsprop 更新方法.

有了 momentum 的慣性原則 , 加上 adagrad 的對錯誤方向的阻力, 我們就能合併成這樣. 讓 rmsprop同時具備他們兩種方法的優勢.

似乎在 rmsprop 中少了些什麼. 原來是我們還沒把 momentum合併完全, rmsprop 還缺少了 momentum 中的這一部分. 所以, 我們在 adam 方法中補上了這種想法.

計算m 時有 momentum 下坡的屬性, 計算 v 時有 adagrad 阻力的屬性, 然後在更新引數時把 m 和 v 都考慮進去. 實驗證明, 大多數時候, 使用 adam 都能又快又好的達到目標, 迅速收斂. 所以說, 在加速神經網路訓練的時候, 乙個下坡, 一雙破鞋子, 功不可沒.

Pytorch教程 加速神經網路訓練