空洞卷積 dilated convolution

2021-09-02 13:31:34 字數 650 閱讀 1346

cnn在諸如分類(識別)任務中的處理過程一般是卷積、池化、全連線。這三種操作把資料轉換成多個低維度特徵,便於分類。如把一張128x416的影象轉換成乙個1x1x100的特徵圖,就可以做成乙個100路分類器。

卷積、池化都是下取樣操作。下取樣降低資料的耦合性,增加了網路的不變性:乙個畫素和它周圍的畫素相耦合,所以可以通過下取樣用更少的畫素代替這部分畫素;下取樣也增加了網路的尺度和平移不變性。這在獲取高維特徵進行分類的任務中是很有用的。

一些結構化任務,如語義識別、深度估計,要產生的最終結果是和原圖尺寸大小相同的結果圖,也就是需要保持影象尺寸。如果把這些任務看成是對畫素的分類,也可以通過傳統的卷積、池化、全連線實現。按這種思路設計的網路框架就是乙個編碼器、解碼器結構,如zhou等人的深度估計網路的結構如下:

在這樣的結構中,卷積池化用於提取特徵/編碼資料。然後通過反卷積或線性插值擴大影象尺寸,使特徵圖恢復原始尺寸。

該類問題有通用步驟:1.用池化擴大感受野範圍,提取不同尺度特徵;2.反卷積恢復影象尺寸。池化會丟失資訊,因此如果能不用池化增大感受野,就不會丟失資訊,也不需要反卷積。基於這個思路,yu等人2023年提出空洞卷積。空洞卷積的具體介紹和應用請結合deeplab學習。

空洞 擴張dilated 卷積

也可以根據字面意思把dilated這個詞直接翻譯成膨脹卷積或者擴張卷積。這個概念就得重新回到感受野這個話題上,這裡補充一些感受野的知識點。感受野可以理解為乙個神經元接觸到原始特徵圖的區域範圍,感受野越大,神經網路越可以看到更加巨集觀的特徵。這個也很好理解,如果關注乙個畫素,只能看到影象的顏色資訊,但...

上取樣 以及反卷積 空洞卷積區別

一 上取樣 upsampling upsampling 上取樣 的三種方式 resize,如雙線性插值直接縮放,類似於影象縮放 反卷積 deconvolution transposed convolution 反池化 unpooling 上取樣upsampling的主要目的是放大影象,幾乎都是採用內...

骨架網路(Backbone)之 空洞卷積

空洞卷積空洞卷積最初是為解決影象分割的問題而提出的。常見的影象分割演算法通常使用池化層來增大感受野,同時也縮 小了特徵圖尺寸,然後再利用上取樣還原影象尺寸。特徵圖縮小再放大的過程造成了精度上的損失,因此需要有 一種操作可以在增加感受野的同時保持特徵圖的尺寸不變,從而替代池化與上取樣操作,在這種需求下...