空洞卷積 dilated convolution

2021-09-02 13:31:34 字數 650 閱讀 1346

cnn在諸如分類(識別)任務中的處理過程一般是卷積、池化、全連線。這三種操作把資料轉換成多個低維度特徵，便於分類。如把一張128x416的影象轉換成乙個1x1x100的特徵圖，就可以做成乙個100路分類器。

卷積、池化都是下取樣操作。下取樣降低資料的耦合性，增加了網路的不變性：乙個畫素和它周圍的畫素相耦合，所以可以通過下取樣用更少的畫素代替這部分畫素；下取樣也增加了網路的尺度和平移不變性。這在獲取高維特徵進行分類的任務中是很有用的。

一些結構化任務，如語義識別、深度估計，要產生的最終結果是和原圖尺寸大小相同的結果圖，也就是需要保持影象尺寸。如果把這些任務看成是對畫素的分類，也可以通過傳統的卷積、池化、全連線實現。按這種思路設計的網路框架就是乙個編碼器、解碼器結構，如zhou等人的深度估計網路的結構如下：

在這樣的結構中，卷積池化用於提取特徵/編碼資料。然後通過反卷積或線性插值擴大影象尺寸，使特徵圖恢復原始尺寸。

該類問題有通用步驟：1.用池化擴大感受野範圍，提取不同尺度特徵；2.反卷積恢復影象尺寸。池化會丟失資訊，因此如果能不用池化增大感受野，就不會丟失資訊，也不需要反卷積。基於這個思路，yu等人2023年提出空洞卷積。空洞卷積的具體介紹和應用請結合deeplab學習。

空洞擴張dilated 卷積

也可以根據字面意思把dilated這個詞直接翻譯成膨脹卷積或者擴張卷積。這個概念就得重新回到感受野這個話題上，這裡補充一些感受野的知識點。感受野可以理解為乙個神經元接觸到原始特徵圖的區域範圍，感受野越大，神經網路越可以看到更加巨集觀的特徵。這個也很好理解，如果關注乙個畫素，只能看到影象的顏色資訊，但...

上取樣以及反卷積空洞卷積區別

一上取樣 upsampling upsampling 上取樣的三種方式 resize，如雙線性插值直接縮放，類似於影象縮放反卷積 deconvolution transposed convolution 反池化 unpooling 上取樣upsampling的主要目的是放大影象，幾乎都是採用內...

骨架網路（Backbone）之空洞卷積

空洞卷積空洞卷積最初是為解決影象分割的問題而提出的。常見的影象分割演算法通常使用池化層來增大感受野，同時也縮小了特徵圖尺寸，然後再利用上取樣還原影象尺寸。特徵圖縮小再放大的過程造成了精度上的損失，因此需要有一種操作可以在增加感受野的同時保持特徵圖的尺寸不變，從而替代池化與上取樣操作，在這種需求下...