基於權值熵的深度神經網路量化

**： weighted-entropy-based quantization for deep neural networks (cvpr2017)

1.緒論部分：

量化是優化神經網路模型前向計算耗時的最有效的方法之一，以便它們部署到資源受限的移動或嵌入式系統中。在這類方法中，最重要是提供低精度損失量化。在這篇**中，作者提出了一種基於加權熵概念的量化權值和啟用值的方法。它不像最近的二值化神經網路，作者提出的方法是根據目標精度來選擇量化的位元位數。這種方法更加方便的去權衡精度與效能，以便更合理的選擇量化級別。雖然，作者提供了這種自動量化策略，但是對於傳統訓練演算法來說也是很輕易使用的。作者進行大量實驗，如分類(alexnet,googlenet,resnet-50/101),檢測(r-fcn with resnet-50)和語言模型(lstm網路)，不用多說，肯定是有效果的。

1.無法權衡精度和效能

2.即使有，也是部分有效，需要大量修改網路，而且不量化第一層和最後一層

提到了一些方法：logquan、xnor-net、dorefa-net，有興趣可以找出來看看。

3.動機和靈感：

首先對權值和啟用值的概率分布進行了分析，呈現鐘型分布（bell-shaped distribution），由三部分組成：1.接近0的值佔主要部分，但對結果影響不大，分配相對較少的量化級；2.兩端大的值相對較少，對結果影響大，但是為了充分利用量化級只分配少量的量化級給這部分；3.既不大又不小的值相對較多，對結果影響相對較大，所以分配更多的量化級。如圖右下角就是wq量化分布圖。

4.量化與權值熵：

4.1權值量化

權值量化的高層次思想是將權值分成n個聚類，從而有更多聚類代表重要權值，為每個聚類分配具有代表性的值，然後量化所有權值到某個對應聚類的值。這裡最主要的是weight entropy，下面公式中的s，這裡分成n個聚類c0,...,cn-1。pn（概率）表示有多少比例的權值在cn這個聚類範圍內；in（重要性）表示cn這個聚類裡面所有權值的平均重要性。i(n,m)表示第n個聚類中的第m個權值的重要性，其與那個權值的二次方成比例。因為值大的權重分布比較稀疏，值小的權重的分布比較密集，所以值較大的cn會有較大的in和較小的pn。簡單說就是高重要性低概率；高頻率低重要性。

（權值量化）提供訓練資料（mini-batch input）和期望的logn-bit精度（聚類個數），找聚類n中的最大權值熵。聚類代表的值對應權值量化的level。

權值熵理論限制，不能同時處理正負值，因此分成兩個組負值和非負值，分別應應用演算法到每組（n/2 levels）。

重要演算法1：

1.輸入（聚類數量n，權值w）

2-3.計算每個權值的重要性

4.重要性排序s=

5.初始化聚類邊界c0,...cn（假如s=[1,2,3,4]，n=2，那麼就可以得到初始化的分割邊界：c0=0，c1=2，c2=4，也就是將s分成了c0=和c1=兩份）

6-11.找最大權值熵s的過程中更新聚類邊界。第7行遍歷所有聚類1~n-1，第8行ck在ck-1和ck+1這個範圍遍歷的時候，找到最大s，並更新邊界對應的聚類ck，即新邊界聚類

12-15.遍歷每個聚類，第13行計算每個聚類的重要性ik,第14行根據ik計算出這個聚類代表的值rk（figure1的縱軸），第15行根據邊界重要性s[ck]計算出權值的邊界（figure1的橫軸）

16-17.返回r0-rn-1和b0-bn，分別表示每個聚類的值和邊界

4.2啟用值量化

logquan量化可自行了解

基於權值熵的深度神經網路量化

深度神經網路權值初始化的詭異問題

神經網路的交叉熵損失函式

基於FPGA的卷積神經網路實現（六）資料量化（2）

基於權值熵的深度神經網路量化

深度神經網路權值初始化的詭異問題

神經網路的交叉熵損失函式

基於FPGA的卷積神經網路實現（六）資料量化（2）

相關推薦