神經網路加速訓練應避免的問題

目前衡量模型複雜度的通用指標是flops，注意這裡的s是小寫，與flops區分，flops是floating-point operations per second的簡寫，即每秒所能夠進行的浮點運算數目，是乙個衡量gpu效能的指標。而衡量模型複雜度的指標是flops是floating-point operations的簡寫指浮點運算數，理解為計算量。可以用來衡量演算法/模型的複雜度。在**中常用gflops（1 gflops = 10^9 flops）。

flops在卷積中的計算公式為

其中的cin是指卷積層輸入tensor的通道數，cout指的是卷積層輸出tensor的通道數。k指的是卷積核大小。

去掉常數項，簡化操作

但是相同flops的模型在運算速度上可能存在差異，模型的記憶體使用量對於模型的速度同樣重要。

這裡c1是指輸入特徵的通道數，c2是指輸出特徵的通道數，這個指標的直觀含義就是記憶體訪問消耗的時間。

由**：shufflenet v2: practical guidelines for efficient cnn architecture design

連線：文章連線

同等通道大小最小化記憶體使用量，即當輸入通道和輸出通道相同時可以使記憶體使用量減小，網路訓練速度加快。

過量使用分組卷積會增加記憶體使用量，即使用過多的分組卷積會使網路的訓練速度下降，像mobilenet、shufflenet、xception其實都借鑑了卷積的group操作來加速模型，這是因為group操作可以大大減少flops，因此即便適當加寬網路也不會使得flops超過原來不帶group的卷積操作，但是網路模型的訓練時間大大增加了，這就是因為mac增大了。

網路模型分支越少，訓練的速度越快。模型支路越多對於平行計算越不利，這樣帶來的影響就是模型速度變慢。

element-wise對網路訓練速度有影響。網路中元素級操作越多，網路的訓練速度就會越慢，在網路訓練中的元素級操作有relu，add等。雖然他們並不會增大flops，但是會增大mac，網路訓練的速度也會變慢。

所以在網路訓練過程中應該盡量避免同一卷積操作中通道數的改變，對於分組卷積設定合理的分組數，網路分支不要太多，合理利用元素級操作

神經網路加速訓練應避免的問題

Pytorch教程加速神經網路訓練

優化神經網路的方法，加速訓練

神經網路訓練

神經網路加速訓練應避免的問題

Pytorch教程 加速神經網路訓練

優化神經網路的方法，加速訓練

神經網路訓練

相關推薦

Pytorch教程加速神經網路訓練