ROIPooling和ROIAlign的特點和區別

一）、roipooling

這個可以在faster rcnn中使用以便使生成的候選框region proposal對映產生固定大小的feature map

先貼出一張圖，接著通過這**釋roipooling的工作原理

針對上圖

1)conv layers使用的是vgg16，feat_stride=32(即表示，經過網路層後縮小為原圖的1/32),原圖800*800,最後一層特徵圖feature map大小:25*25

2)假定原圖中有一region proposal，大小為665*665，這樣，對映到特徵圖中的大小：665/32=20.78,即20.78*20.78，如果你看過caffe的roi pooling的c++原始碼，在計算的時候會進行取整操作，於是，進行所謂的第一次量化，即對映的特徵圖大小為20*20

3)假定pooled_w=7,pooled_h=7,即pooling後固定成7*7大小的特徵圖，所以，將上面在 feature map上對映的20*20的 region proposal劃分成49個同等大小的小區域，每個小區域的大小20/7=2.86,即2.86*2.86，此時，進行第二次量化，故小區域大小變成2*2

4)每個2*2的小區域裡，取出其中最大的畫素值，作為這乙個區域的『代表』，這樣，49個小區域就輸出49個畫素值，組成7*7大小的feature map

總結，所以，通過上面可以看出，經過兩次量化，即將浮點數取整，原本在特徵圖上對映的20*20大小的region proposal，偏差成大小為14*14的，這樣的畫素偏差勢必會對後層的回歸定位產生影響

所以，產生了替代方案，roialign

二）、roialign

這個是在mask rcnn中使用以便使生成的候選框region proposal對映產生固定大小的feature map時提出的

先貼出一張圖，接著通過這**釋roialign的工作原理

同樣，針對上圖，有著類似的對映

1)conv layers使用的是vgg16，feat_stride=32(即表示，經過網路層後縮小為原圖的1/32),原圖800*800,最後一層特徵圖feature map大小:25*25

2)假定原圖中有一region proposal，大小為665*665，這樣，對映到特徵圖中的大小：665/32=20.78,即20.78*20.78，此時，沒有像roipooling那樣就行取整操作，保留浮點數

3)假定pooled_w=7,pooled_h=7,即pooling後固定成7*7大小的特徵圖，所以，將在 feature map上對映的20.78*20.78的region proposal 劃分成49個同等大小的小區域，每個小區域的大小20.78/7=2.97,即2.97*2.97

4)假定取樣點數為4，即表示，對於每個2.97*2.97的小區域，平分四份，每乙份取其中心點位置，而中心點位置的畫素，採用雙線性插值法進行計算，這樣，就會得到四個點的畫素值，如下圖

上圖中，四個紅色叉叉『×』的畫素值是通過雙線性插值演算法計算得到的

最後，取四個畫素值中最大值作為這個小區域(即：2.97*2.97大小的區域)的畫素值，如此類推，同樣是49個小區域得到49個畫素值，組成7*7大小的feature map

總結：知道了roipooling和roialign實現原理，在以後的專案中可以根據實際情況進行方案的選擇；對於檢測中大目標物體時，兩種方案的差別不大，而如果是中有較多小目標物體需要檢測，則優先選擇roialign，更精準些....

ROIPooling和ROIAlign的特點和區別

ROI Pooling層簡單理解

RoIPooling與RoIAlign的區別

cupy系列（二）實現roi pooling

ROIPooling和ROIAlign的特點和區別

ROI Pooling層簡單理解

RoIPooling與RoIAlign的區別

cupy系列（二） 實現roi pooling

相關推薦

cupy系列（二）實現roi pooling