解卷積與卷積的一些思考

2022-03-13 12:45:52 字數 4416 閱讀 6123

elfin目錄

​ 解卷積可以理解為卷積的「逆向」過程,但是說deconvolution是反卷積,這個好像並不是那麼恰當,查閱資料,deconvolution這個詞的專業解釋(專有名詞翻譯)叫:解卷積、去卷積。實際上這個叫法更專業,更貼近深度學習的使用場景。後面在介紹deconvolution和卷積層是否一樣的時候,我們將使用「解卷積」稱呼deconvolution。

​ 在我們的cvpr 2016**[1]中,我們提出了一種新的網路結構來處理單影象超解析度(sr)。大多數現有的基於卷積神經網路(cnn)的超解析度方法[10,11]首先使用「雙三次插值(專有名稱)」對影象進行上取樣,然後應用卷積網路。我們將這些首先對影象進行上取樣的網路稱為高解析度(hr)網路。相反,我們直接將低解析度(lr)輸入直接輸入到亞畫素卷積神經網路中,如下圖所示:

​ 在這篇文章中,我們想關注兩個方面,這兩個問題與cvpr的大多數人在看到這個網路時向我們提出的兩個問題有關。

​ 這些實際上是我們試圖在**中回答的關鍵問題,但考慮到篇幅限制,我們未能深入到我們希望的深度和清晰度。為了更好地回答這些問題,我們首先討論了以轉置卷積層、亞畫素卷積層和高效亞畫素卷積層形式存在的解卷積層之間的關係,我們將在第一節、第二節中討論。我們將高效亞畫素卷積層稱為lr空間中的卷積層,以區別於普通的亞畫素卷積層[5]。然後,我們將證明,對於固定的計算預算和複雜度,在lr空間中僅有的卷積網路在相同的速度下比首先在hr空間中對輸入進行上取樣的網路具有更大的表示能力。

top---bottom

​ 首先我們需要考察解卷積層。人們通常所說的解卷積層,首先出現在zeiler的**中,作為解卷積網路的一部分[2],但沒有乙個特定的名稱。deconvolution(解卷積)層一詞在他後來的工作[3]中使用,然後在caffe中實現。

​ 在網路視覺化**[4]取得成功之後,它被廣泛採用,目前常用於語義分割[5]、流估計[6]和生成建模[7]。它還有許多名稱,包括(但不限於)亞畫素或微步卷積層[7]、轉置卷積層[8,9]、逆卷積層、上卷積層或後向卷積層[5,6]。為了解釋這些不同名稱之間的關係,讓我們從下圖所示的1d中的步長2的簡單卷積開始,它的靈感來自於[8,9]:

上圖說明了乙個padding後的1d訊號\(x\),經過訊號過濾器\(f\),獲得了乙個1d訊號\(y\)。訊號\(x\) 長度為8,過濾器\(f\) 的長度為4,訊號\(y\) 的長度為5。\(x\)中的灰色部分是padding(使用0),\(f\)中的灰色區域表示與零相乘。\(x\)對\(y\)值的貢獻如上圖行所示,我們注意到步長為2的卷積是一種下取樣操作。

現在,讓我們來研究乙個1d中帶步長2的裁剪轉置卷積和帶步長\(\frac\)的亞畫素卷積:

​ 上面兩種卷積我們可以看出其都是上取樣操作,上面的案例中,我們可以知道輸入的訊號\(x\)長度為5,過濾器\(f\)的大小為4,卷積後的訊號\(y\)長度為8。訊號\(y\)中的灰色區域表示裁剪(這部分不要所以也稱之為裁剪卷積)。轉置卷積之所以得名,是因為中間運算的矩陣是上上個圖中矩陣的轉置版本。它也被稱為反向卷積,因為它是卷積層的反向傳播。值得注意的是,填充後的卷積由於轉置矩陣而成為裁剪卷積,而亞畫素卷積的名稱來自於在原始畫素之間填充微步索引的假想子畫素(如圖b中使用0進行畫素間的填充)。

​ 我們可以看到,這兩種操作之間的唯一區別是,從x貢獻y時所使用的權重索引形式是不同的(直觀上就是乙個是橫著乙個是豎著)。如果我們在亞畫素卷積中反轉濾波器f的元素索引(橫向與縱向轉換,也即原矩陣與轉置矩陣),那麼該層將與轉置卷積層相同。換言之,如果濾波器被學習,兩個操作可以獲得相同的結果。

top---bottom

​ 在本文中,我們還想證明在lr空間中具有卷積核大小為(輸出通道、輸入通道、核寬度、核高度)=(\(o \times r^, i, k, k\))的簡單卷積層,等於解卷積\(kernel\_size = (o, i, k*r, k*r)\),其中k是正整數。我們將在2d特徵圖中執行這些步驟,並可以與上一節的內容對應。為了避免過於複雜的圖形,讓我們先從乙個簡單的亞畫素卷積層(帶padding)開始,該層有乙個(1,4,4)的輸入和乙個(1,1,4,4)卷積核,並假設乙個上取樣縮放因子2,得到乙個\((1, 8, 8)\)的輸出:

take care我們注意到,(1,1,4,4)核心中的不同權重集是相互獨立啟用的。所以我們可以很容易地將它們分成(4,1,2,2)個核心(即4個\([1,1,2,2]\)的卷積核),如下圖所示。

這個操作是可逆的,因為在卷積過程中,每組權重是相互獨立的。

tips: 有上面的操作我們可以將亞畫素卷積修改為下面的方式

在我們的**中,我們沒有將(1,1,4,4)的過濾器與unpooled亞畫素影象卷積,而是直接將核心與lr輸入卷積,如下圖所示:

卷積後的特徵圖是\([4,4,4]\),我們可以簡單地使用本文中提到的週期性\(shuffling\)操作將輸出通道重塑為hr輸出。上圖的hr輸出與上上圖的hr輸出是一樣的!

這裡我們可以證明對任意的縮放比例\(r\)我們都可以將解卷積變換為多個卷積核的週期性\(shuffling\)操作。如上面所述,若\(r=2\),則我們要使用\(r^=9\)個卷積核( \(kernel\_size = (o, i, k*r, k*r)\) ) 。

在作者的**中最後訓練的卷積層核為(9,32,3,3),經過逆運算可以重建解卷積層卷積核為(1,32,9,9)。

如果我們應用(9,32,3,3)到任意32通道輸入,通過\(periodic\_shuffling\)操作我們可以得到使用解卷積(1,32,9,9)一樣的結果。如1d資料中的第二張圖,我們使用卷積核\(f_=(2,4)\)和\(f_=(1,3)\)替換\(f=(1,2,3,4)\)。由\(y_=f_*x\)和\(y_=f_*x\),其中星號表示卷積,合併產生訊號\(y\)。lr空間中的卷積和上面討論的亞畫素卷積之間的等價性適用於大小等於\(k*r\)的過濾器\(f\)。但讀者可能已經注意到,對於亞畫素卷積,可以是任何大小。然而,lr空間中的卷積實際上也適用於大小不等於\(k*r\)的情況。例如,我們的過濾器如果是\(f=(1,2,3)\),則可以有\(f_=(2)\)和\(f_=(1,3)\),合併\(f_\)、\(f_\)產生\(y\)。

top---bottom

綜上所述:解卷積層和lr空間(有\(r^\)個通道)中的卷積一樣。這意味著網路可以學習使用lr特徵圖的\(r^\)個通道來表示乙個hr特徵圖(如果鼓勵這樣做的話)。並且建立\(r^\)個通道的特徵圖使用的是普通卷積,這和下圖中的建立\(n_\)特徵圖之前的卷積一樣!

​ 在我們完成這篇**之後,我們在去年對這個問題有了更多的見解,如果我們現在把注意力放在最後一次卷積之前的卷積層上,它有n個特徵對映,我們現在知道,在上取樣因子為2的情況下,它可以學習在lr空間中表示n個特徵圖(n為通道數),相當於在高解析度下的\(\frac\)特徵圖(即通道數縮放了\(r^\)倍)。現在假設兩個網路架構擁有一樣的執行速度。其中乙個特徵圖通道數為32(在低解析度特徵圖下);另乙個卷積之前先上取樣並且最後有通道數為8的高解析度特徵圖。在執行速度一樣的情況下,前者的模型效能要比後者好!

對於lr網路的複雜度,它與hr網路是一樣的!兩種網路的資訊量也是一樣的!在源圖中的感受野也是一樣的!然而lr模型比hr模型的引數要多很多,這也是其效能更好的原因。

鑑於上述論點,我們現在認為,對於超解析度問題,使用雙三次或解卷積層的顯式上取樣實際上是沒有必要的。例如,由dong[12]和johnson[13]獨立開發的後期作品在lr中使用卷積實現超解析度和均勻風格轉換。

這引發了更有趣的問題。在其他應用中是否需要使用雙三次插值或解卷積進行顯式上取樣?網路是否可以從僅使用卷積中了解何時進行上取樣以及有多大比例的特徵圖進行上取樣?當resnet與需要上取樣的任務的多層卷積相結合時,網路會自動學習lr和hr特性的結合嗎?我們將留給讀者思考這些更有趣的問題。

top---bottom

完!

反向傳播 卷積 反卷積一些要點

假設s這裡誤差單位1,到達,z 1 3 error is 1 3 1 因為最後乙個神經元沒有非線性變換。到達a1 2 error is 1 3 w12 越過神經元maps z12 to a12,1 2 w1 2 一撇 z1 2 卷積的一些要點 輸入32 32 3,引數個數 5 5 模板 3 前一通道...

卷積神經網路的一些細節思考(卷積 池化層的作用)

卷積神經網路由卷積核來提取特徵,通過池化層對顯著特徵進行提取,經過多次的堆疊,得到比較高階的特徵,最後可以用分類器來分類。這是cnn的乙個大概流程,其具體實現的結構是豐富多樣的,但總的思想是統一的。cnn整個的計算過程,最重要的有兩點 組合性和區域性不變性 平移 旋轉 尺度放縮 每個卷積核可以看做某...

關於圓周卷積和fft求卷積的一些看法

我們以乙個例子來看這個問題 附線性卷積 n 5 1 50 n 56 x uct n uct n 10 h 0.9.n.uct n y,yn conv m x,n,h,n figure 1 stem yn,y 其中圓周卷積是用的我定義好的函式 circonv function y,ny circonv...