caffe 基本資料結構blob

@tags: caffe blob

blob是caffe中的基本資料結構，簡單理解就是乙個「4維陣列」。但是，這個4維陣列有什麼意義？

btw，tensorflow這款google出的框架，帶出了tensor（張量）的概念。雖然是數學概念，個人還是傾向於簡單理解為「多維陣列」，那麼放在這裡，caffe的blob就相當於乙個特殊的tensor了。而矩陣就是二維的張量。

anyway，看看blob的4個維度都代表什麼：

num: 影象數量 channel：通道數量 width：影象寬度 height：影象高度

caffe中預設使用的sgd隨機梯度下降，其實是mini-batch sgd

每個batch，就是一堆。這乙個batch的，就儲存在乙個blob中。

當然，blob並不是這麼受限的、專門給batch內的做儲存用的。實際上，引數、梯度，也可以用blob儲存的。只要是caffe的網路中傳遞的資料，都可以用blob儲存。

而且，blob實際上也並不一定是4維的。它在實現上其實就是1維的指標，而我們作為使用者感受到的「多個維度」是通過shape來操作的。

*****==== 2016-10-26 20:32:45更新 **********

在用faster-rcnn訓練的時候使用了zf網路，對於zf網路中的卷積、池化的計算，這裡想自己算一算，結果發現對於卷積網的計算細節還是不太懂，於是找到這篇部落格。

一開始對於部落格中的推導，1、2=>3這裡不理解：

1、首先，輸入大小是 2242243（這個3是三個通道，也就是rgb三種）

2、然後第一層的卷積核維度是 773*96 （所以大家要認識到卷積核都是4維的，在caffe的矩陣計算中都是這麼實現的）；

3、所以conv1得到的結果是11011096 （這個110來自於 (224-7+pad)/2 +1 ，這個pad是我們常說的填充，也就是在的周圍補充畫素，這樣做的目的是為了能夠整除，除以2是因為2是圖中的stride，這個計算方法在上面建議的文件中有說明與推導的）；

第一感覺是，conv1得到的應該是110x110x3x96的結果，而不是110x110x96。後來問了別人，再看看書，發現自己忽略了乙個細節，就是卷積之後有乙個∑和sigmoid的兩個過程，前者是累加，後者是對映到0-1之間。具體到faster-rcnn，∑對應的就是：各個通道上對應位置做累加；而啟用函式使用的應該是relu吧。anyway，這裡的累加和啟用函式處理後，通道數就變成了乙個；也就是，對於乙個濾波器，滑窗濾波+累加、啟用函式後，得到的乙個feature map。

再具體點說，這裡的濾波器（卷積核），是3維的，(width,height,channel)這樣；我們用它在乙個feature map上按滑窗方式做卷積，其實是所有channel上同時做sliding window的操作；每個sliding windows位置上，所有通道卷積的結果累加起來，再送給啟用函式relu處理，就得到結果feature map中的乙個畫素的值。

值得注意的是，濾波器的通道數量，和要處理的feature map的通道數量，其實可以不一樣的，可以比feature map維度少一點，這相當於可以自行指定要選取feature map中的某些channel做卷積操作，相當於有乙個取樣的過程，甚至可以僅僅使用乙個channel的卷積結果。具體例子，可以參考《人工智慧（第三版）》（王萬良著）裡面的例子，結合例子中算出的「要學習的引數數量」來理解。

總結

在caffe中，blob型別是(width,height,channel,number)四元組，表示寬度、高度、通道數量、數量（或者叫種類）

影象本身、feature map、濾波器（kernel），都可以看做是blob型別的具體例子

乙個「層」，可以理解為執行相應操作後，得到的結果。比如，執行卷積操作，得到卷積層；執行全連線操作，得到全連線層。通常把池化層歸屬到卷積層裡面。池化就是下取樣的意思，有最大池化和平均池化等。

對於乙個卷積層，其處理的「輸入」是多個feature maps，也就是乙個blob例項：(h1,w1,c1,n1)，比如(224,224,3,5），表示5張影象（這裡的5，可以認為是乙個minibatch的batch size，即數量）

卷積操作需要卷積核的參與，卷積核也是blob的例項：(h2,w2,c2,n2)，比如(7,7,3,96)，表示有96個卷積核，每個卷積核是乙個3維的結構，是7x7的截面、3個通道的卷積核

卷積層的輸出也是若干feature maps，也是乙個blob例項:(h3,w3,c3,n3)，是根據輸入的feature maps和指定的卷積核計算出來的。按上面的例子，得到feature map的blob描述為(110,110,96,5)，表示有5個feature maps，每個feature map是110x110x96大小。

通常可以這樣理解：卷積核的個數，作為結果feature maps中的通道數量。

參考

**********= 2016-10-27 21:06:24 再次update **********=

其實上面的理解簡直是過於瑣碎、過於不到位。其實cnn的資料流動，包括前向傳播和反向傳播，都是blob經過一層，得到乙個新的blob，這個層通常是卷積操作。這個卷積是3d卷積，是空間的卷積！簡言之，每次把空間的乙個長方體內部的元素值累加，即得到結果feature map中的乙個畫素值（通常是滑窗操作，所以說是得到乙個畫素值）：

feature map --(3d卷積)--> 新的feature map

caffe 基本資料結構blob

caffe 基本資料結構blob

caffe 基本資料結構blob

caffe中Blob資料結構

相關推薦