池化 和卷積

2021-08-20 21:21:27 字數 2055 閱讀 4294

在卷積神經網路中,我們經常會碰到池化操作,而池化層往往在卷積層後面,通過池化來降低卷積層輸出的特徵向量,同時改善結果(不易出現過擬合)。

為什麼可以通過降低維度呢?

因為影象具有一種「靜態性」的屬性,這也就意味著在乙個影象區域有用的特徵極有可能在另乙個區域同樣適用。因此,為了描述大的影象,乙個很自然的想法就是對不同位置的特徵進行聚合統計,例如,人們可以計算影象乙個區域上的某個特定特徵的平均值 (或最大值)來代表這個區域的特徵。[1]

池化作用於影象中不重合的區域(這與卷積操作不同),過程如下圖。

我們定義池化視窗的大小為sizex,即下圖中紅色正方形的邊長,定義兩個相鄰池化視窗的水平位移/豎直位移為stride。一般池化由於每一池化視窗都是不重複的,所以sizex=stride。

最常見的池化操作為平均池化mean pooling和最大池化max pooling:

平均池化:計算影象區域的平均值作為該區域池化後的值。

最大池化:選影象區域的最大值作為該區域池化後的值。

空間金字塔池化可以把任何尺度的影象的卷積特徵轉化成相同維度,這不僅可以讓cnn處理任意尺度的影象,還能避免cropping和warping操作,導致一些資訊的丟失,具有非常重要的意義。

一般的cnn都需要輸入影象的大小是固定的,這是因為全連線層的輸入需要固定輸入維度,但在卷積操作是沒有對影象尺度有限制,所有作者提出了空間金字塔池化,先讓影象進行卷積操作,然後轉化成維度相同的特徵輸入到全連線層,這個可以把cnn擴充套件到任意大小的影象。

空間金字塔池化的思想來自於spatial pyramid model,它乙個pooling變成了多個scale的pooling。用不同大小池化視窗作用於卷積特徵,我們可以得到1x1,2x2,4x4的池化結果,由於conv5中共有256個過濾器,所以得到1個256維的特徵,4個256個特徵,以及16個256維的特徵,然後把這21個256維特徵鏈結起來輸入全連線層,通過這種方式把不同大小的影象轉化成相同維度的特徵。

對於不同的影象要得到相同大小的pooling結果,就需要根據影象的大小動態的計算池化視窗的大小和步長。假設conv5輸出的大小為a*a,需要得到n*n大小的池化結果,可以讓視窗大小sizex為

疑問:如果conv5輸出的大小為14*14,[pool1*1]的sizex=stride=14,[pool2*2]的sizex=stride=7,這些都沒有問題,但是,[pool4*4]的sizex=5,stride=4,最後一列和最後一行特徵沒有被池化操作計算在內。

spp其實就是一種多個scale的pooling,可以獲取影象中的多尺度資訊;在cnn中加入spp後,可以讓cnn處理任意大小的輸入,這讓模型變得更加的flexible。

4.        reference

[1]    ufldl_tutorial  

[2]    krizhevsky, i. sutskever, andg. hinton, 「imagenet classification with deep convolutional neural networks,」in nips,2012.

[3]    kaiming  he, xiangyu zhang, shaoqing ren, jian su,spatial pyramid pooling in deep convolutional networks for visual recognition,lsvrc-2014 contest

.net

/danieljianfeng/article/details/42433475

關於卷積和池化

我們可以看到,卷積過程其實還是基於乙個固定的矩陣,在另外乙個矩陣不斷一格一格掃過去的到的數值的和,產生的乙個新的矩陣,我們以作為比較會發現 粉紅色矩陣和綠色矩陣在根本上有很大不一樣,卷積之後的維數降低了.所以規律可以得到 粉紅色最後的卷積結果矩陣維度 綠色矩陣維數 橙色矩陣維數 1 多通道資料的卷積...

卷積和池化的區別

2015年08月17日 16 46 31 12540人閱讀收藏 舉報 deep learning 深度學習 12 1 卷積 當從乙個大尺寸影象中隨機選取一小塊,比如說 8x8 作為樣本,並且從這個小塊樣本中學習到了一些特徵,這時我們可以把從這個 8x8 樣本中學習到的特徵作為探測器,應用到這個影象的...

pytorch NLP中的卷積和最大池化

import torch import torch.nn as nn 卷積 torch.manual seed 6 x torch.randn 4,3,5 batch size,seq len,hidden x x.unsqueeze 1 batch size,channel 1,seq len,h...