More is Less 卷積網路加速

一篇講網路加速的**，來自2017cvpr。

目前做神經網路加速的主要有這幾個方面：低秩分解，定點運算、向量量化、稀疏表示、特殊的輕量級網路結構。

再介紹本文方法之前，需要了解一下常見的卷積是怎樣實現的。以caffe中的卷積為例，首先通過im2col將輸入展開重排成乙個大矩陣，然後執行矩陣乘法。具體可參考知乎上的乙個高票回答，圖示很清楚，

下面用公式說明一下：

假設輸入 \(x\in r^\), 一共有 \(t\)個 \(k\times k \times c\)大小的卷積核，再假設卷積stride=1且存在padding，即保證輸出 \(v\) 的大小與輸入一致。

首先，通過im2col將輸入展開重排成乙個大矩陣 \(\hat x\in r^\), 卷積核也被整理成了乙個矩陣 \(w \in r^\), 於是輸出 \(v\in r^\) 直接通過矩陣乘法計算：\(v = \hat x \times w\).

另一方面，我們通常使用relu來對進行啟用處理： \(\hat v_ = max(v_,0)\). 結合上面的卷積實現原理，我們可以看出如果啟用後某個點的所有通道都為0，就相當於在矩陣乘法時可以直接省略 \(\hat x\)的相應行。遺憾的是，這有一點馬後炮的感覺，因為我們計算完之後才知道是不是會得到0.

整體的實現如下圖：

如上圖，還是先假設輸入 \(x\in r^\), 一共有 \(t\)個 \(k\times k \times c\)大小的卷積核，再假設卷積stride=1且存在padding，即保證輸出 \(v\) 的大小與輸入一致。

黑色部分表示原始結構的卷積，橘黃色部分表示新增的乙個輔助層，該輔助層的卷積引數有兩種選擇，第一種是 \(1\times1 \times c\times t\)，第二種是 \(k\times k\times c\times 1\)，以第二種為例，其卷積輸出為 \(v^ \in r^\)。

\(v^\)由於經過relu和一些稀疏約束，因此只有一部分值不為0。因此，根據\(v^\)我們可以控制計算原始卷積 \(v\)時，省略掉展開矩陣 \(\hat x\) 的對應行，從而完成加速。

文章解釋了為什麼不使用第一種\(1\times1 \times c\times t\)來產生\(v^\)，主要是因為這會導致沒辦法一次完成所有矩陣乘法。

從上面的解釋來看，\(v^\)的稀疏度決定了加速比。

為了讓 \(v^\) 更稀疏，文章一方面使用了relu啟用，同時也嘗試對 \(v^\)進行平滑的稀疏正則化\(l_1l_2(x) = \mu||x||+\rho |x|\), 但是發現很難優化。

後來作者發現bn+relu可以使得輸出更稀疏：

文章將該方法稱為low-cost collaborative layer (lccl)。 idea很讚，但是考慮到帶來的訓練難度，其產生的加速效果就不是很令人滿意了。

下圖是在imagenet上的實驗結果：

More is Less 卷積網路加速

卷積網路future 卷積神經網路Debug隨記

卷積網路計算

卷積神經網路卷積層

More is Less 卷積網路加速

卷積網路future 卷積神經網路Debug隨記

卷積網路計算

卷積神經網路 卷積層

相關推薦

卷積神經網路卷積層