神經網路風格轉移

就是輸入兩張影象，一張是內容影象c，一張是風格影象s，我們希望生成一張新的影象g，使得新影象g同時具備c的內容和s的風格。如下圖，生成的影象內容還是建築和河流，但是畫風變成了梵谷的油畫。

生成的影象g既要和c的內容相近，又要和s的風格相近，因此代價函式由兩部分組成，即內容代價函式和風格代價函式，分別表徵內容相近程度和風格相近程度，即

\[j=\alpha j_c(c, g) + \beta j_s(s, g)

\]\(\alpha\)和\(\beta\)是兩個超引數，表示兩個代價函式的比重。實際上乙個超引數就足夠了，可以把其中乙個固定，調節另乙個即可。

內容代價函式是生成影象和內容影象特徵圖的差值，定義如下：

\[j_=\frac\sigma_^\sigma_^\sigma_^(fc_-fg_)^2

\]公式中，l表示第l層卷積層，h, w, c分別表示該卷積層特徵圖的高、寬、通道數。

風格代價函式也是通過特徵圖得到的，但是它計算不是特徵圖的直接差值，而是gram matrix的差值。對於乙個卷積層，gram matrix \(gm\)的定義如下：

\[gm_^=\sigma_^f_f_

\]\(gm_^\)表示第l層特徵圖的第i個通道和第j個通道之間的相關性。由於不同通道代表的是不同的文理或者顏色，因此不同通道之間的相關性矩陣，即gram matrix可以用來表示影象的風格。兩張影象的gram matrix之差，即表示二者的風格之差。因此，風格代價函式的定義如下：

\[j_=\frac(gm_s^l-gm_g^l)^2

\]公式中，n, m表示gram matrix的尺寸，實際上n, m等於該層特徵圖的數量。

gatys第一次通過神經網路的方法實現了風格轉移，並且給出了風格的數學定義（即如上所述）。他的方法是先隨機生成一張雜訊，然後通過不斷訓練來調整雜訊上的畫素值，得到最後的生成影象g。訓練過程中，固定神經網路的權值不變（採用預訓練模型），通過梯度下降法來更新雜訊影象的畫素值。由於這種方法每次都需要對雜訊影象進行訓練，計算量大，因此速度很慢，不能做到實時。

這項工作由dmitry ulyanov和justin johnson分別獨立完成，整個網路架構和gan有頗多相似之處，如下圖。

該架構由兩個網路構成，前面為風格轉移網路，用於將輸入影象生成為固定風格的影象，後面為損失網路，用於評估生成影象的損失函式值。損失函式的定義任然是內容損失函式和風格損失函式的加權求和。不同於gatys的方法，該架構輸入的是內容影象，由風格轉移網路直接輸出生成影象，從而不用每次都做反向傳播，只需要做一次feedforward就行了，因此速度很快，可以做到實時。在用於生成某種風格的影象之前，需要先進行訓練。訓練時，損失網路保持固定，只訓練風格轉移網路。

在提出了新的架構之後，dmitry ulyanov任然對結果不滿意，於是找到了乙個簡單有效的改進方法。在風格轉移網路中有bn(batch normalization)層，它的作用是用來對batch內的影象的特徵圖做特徵歸一化的。要做歸一化，就要計算batch內特徵圖的平均值和方差，計算公式如下：

\[\mu_c=\frac\sigma_^h\sigma_^w\sigma_^tx_

\]\[\sigma_c^2=\frac\sigma_^h\sigma_^w\sigma_^t(x_-\mu_c)^2

\]c表示第c個通道，t表示batch裡的第t個樣本。其實計算的就是這個batch裡所有特徵圖在通道c的平均值和方差。其值是常數，而不是矩陣。之後bn層對每個特徵圖做乙個scale+shift的操作：

\[z_c=\gamma\frac+\beta

\]縮放和平移因子\(gamma\)和\(beta\)通過訓練獲得。以上是bn的處理過程，instance normalization唯一不同的地方是平均值和方差的計算，公式如下：

\[\mu_=\frac\sigma_^h\sigma_^wx_

\]\[\sigma_^2=\frac\sigma_^h\sigma_^w(x_-\mu_)^2

\]可以看到，上面的平均值和方差都是針對單個特徵圖的，而不是整個batch內所有的特徵圖。也就是說，我在對a做風格轉移時，我只考慮a本身的特徵，避免受到batch內其他影象特徵的影響。

對於該方法為什麼有效，解釋如下：風格轉移的過程，就是要把風格影象的對比度轉移到內容影象上，因此需要先去除內容影象本身的對比度。歸一化操作其實就是在去除這種對比度，scale+shift則是將風格影象的對比度附加給內容影象。但是如果採用bn的操作，計算出來的平均值和方差是整個batch內所有影象的均值和方差，而對於單張影象而言，其本身的均值和方差才是最能反映它的對比度的，因此bn會導致對比度去除得不徹底。因此instance normalization更加有效。

\[z=\gamma\frac+\beta

\]作者認為，不同風格之間的差異不在於卷積層上，而在於歸一化過程的scale和shift上，也就是\(\gamma\)和\(\beta\)這兩個引數上。因此，不同風格可以共享同樣的卷積層引數，只需要在\(\gamma\)和\(\beta\)上擴充套件乙個維度，讓\(\gamma_n\)和\(\beta_n\)對應第n（\(n\in[0, n]\)）中風格即可，即：

\[z_n=\gamma_n\frac+\beta_n

\]最後的效果還是不錯的：

神經網路風格轉移

神經網路卷積神經網路

神經網路卷積神經網路

Gram 矩陣與神經網路風格遷移

神經網路風格轉移

神經網路 卷積神經網路

神經網路 卷積神經網路

Gram 矩陣與神經網路風格遷移

相關推薦

神經網路卷積神經網路

神經網路卷積神經網路