基於置信加權池的全卷積保證顏色恆常性

2021-10-05 18:41:34 字數 1650 閱讀 8335

基於patch的cnn網路會因為patch包含的資訊不足,無法確定乙個唯一的顏色或者範圍。在此提出乙個基於全卷積網路結構,其中patch可以攜帶用於估計顏色恆定的置信度權值。權重在乙個獨特的(novel)pool層中學習和應用,在該層中區域性估計被合併到全域性解中。用了該公式網路話就知道在資料集中要學習什麼並且如何pool而不需要額外的監督。還允許端到端的訓練。

網路生成的特徵圖(4維度)被傳遞到加權池層,從區域性到全域性進行聚合,生成之前所說的顏色恆定性估計。我們強制前三個通道表示每個對應patch估計出的顏色元組p ̂_i=g(r_i ),最後乙個通道表示對最終全域性估計的置信度c_i=c(r_i )

然而,由於顏色恆常性問題的性質,最優模型至少受到兩個重要性質的約束:

(1)網路應該能夠提取足夠的語義特徵來區分模糊的patches(如無紋理的牆壁)以進行照明估計;

(2)網路不應該是照明不變的,但它應該對不同的燈光顏色敏感。

如我們所見,第二個要求違反了在分類任務訓練網路中嵌入的知識,因為照明條件不應影響物件的類別。不幸的是,具有較強語義資訊提取能力的網路通常對光照條件的變化也不敏感,這意味著提取的特徵對光照顏色具有不變性。為了在上述兩個特性之間找到乙個很好的平衡,我們嘗試了不同的網路配置。我們嘗試了乙個去掉conv4和/或conv5的較淺版本的alexnet,發現效能變差,可能是由於語義特徵提取能力不足。此外,我們還嘗試了conv6的其他核大小,包括1×1、3×3和10×10,但是發現6×6,即alexnet經過卷積層後的原始輸出大小,得到了最好的結果。為了減小模型尺寸,我們用擠壓網[25]v1.1進行了實驗,發現它也能帶來良好的效果。

當c(ri)=1等於1時,就是一種特殊情況。在我們的網路中,由於fcn的結構,卷積操作在同乙個影象中的patch之間共享,而對於基於patch的cnn,每個patch需要依次通過同乙個網路。也存在其他的池方法,例如完全連線池或最大池;但是,它們要麼缺乏靈活性(即需要特定的輸入影象大小),要麼已經被證明對於顏色恆定性估計不是非常有效。根據[38],中值池做得更好,因為它可以防止異常值直接影響全域性估計,但在很大一部分估計是雜訊的情況下,它並不能完全消除它們的影響。此外,即使我們將其合併到端到端的訓練管道中,每次損失也只能反向傳播到影象中的單個(中值)麵片,忽略麵片之間的成對依賴關係。

數學分析

在估計值p ̂_i 中,方向是一致的,但是大小由權值ci來決定。這個置信度可以作為mask來減少我們學習到的雜訊。

直觀地說,只要區域性估計有助於全域性估計更接近地面真實,網路就增加了相應的置信度。否則,置信度就會降低。這正是學習置信度的方法。

該方法是需要真實光照值和來進行訓練的。我自己讀的就是作者通過分割,然後通過網路得出四個通道的值,用最後乙個通道的值去乘前三個通道,再求和得出真實影象。但是這裡還是有很多問題不是很明白:

1.最後的求和真的是最後乙個通道去分別乘前三個通道再相加嗎?

2.cnn網路在目標探測時是不希望對亮度敏感的。那麼用cnn是不是無法完成亮度調整。

今天的學習都沒學明白,啥也不是,散會。

卷積和池化的區別

2015年08月17日 16 46 31 12540人閱讀收藏 舉報 deep learning 深度學習 12 1 卷積 當從乙個大尺寸影象中隨機選取一小塊,比如說 8x8 作為樣本,並且從這個小塊樣本中學習到了一些特徵,這時我們可以把從這個 8x8 樣本中學習到的特徵作為探測器,應用到這個影象的...

卷積池化後的大小

比如輸入是28 28的單通道,其輸入shape為 batch size,28,28,1 第一層卷積為32個5 5卷積核,其shape為 5,5,1,32 其步長strides為 1,1,1,1 緊接著是第一層的2 2的max pooling,其形狀為 1,2,2,1 其步長strides為 1,2,...

卷積 池化 反卷積 反池化 上取樣的知識點記錄

卷積 same 輸入大小不夠時會在右邊加padding補足。output shape ceil input shape stride size valid output shape ceil input shape kernel shape 1 stride size 池化 池化沒有引數,除非使用t...