目標檢測 SSD原理

ssd使用vgg-16-atrous作為基礎網路，其中黃色部分為在vgg-16基礎網路上填加的特徵提取層。ssd與yolo不同之處是除了在最終特徵圖上做目標檢測之外，還在之前選取的5個特特徵圖上進行**。

ssd圖1為ssd網路進行一次**的示意圖，可以看出，檢測過程不僅在填加特徵圖(conv8_2, conv9_2, conv_10_2, pool_11)上進行，為了保證網路對小目標有很好檢測效果，檢測過程也在基礎網路特徵圖(conv4_3, conv_7)上進行。

注意：圖中fc6, fc7名為fc，其實是卷積層。

ssd圖2為整個ssd訓練網路的結構，由於影象所含層數太多，網路中不能看到每層細節，我重畫其中部分層為綠色，作為代表。可以看出，gt標籤在分特徵圖上生成priorbox，即再將所有priobox組合為mbox_priorbox作為所有預設框的真實值。再看**過程，會在所選取的特徵圖進行兩個 3x3卷積，其中乙個輸出每個預設框的位置(x, y, w, h)四個值，另乙個卷積層輸出每個預設框檢測到不同類別物體的概率，輸出個數為**類別個數。再將所有的預設框位置集成為mbox_loc，將所有預設框**類別的向量組合為mbox_conf。mbox_loc、mbox_conf為所有**預設框，將它與所有預設框的真實值mbox_priorbox進行計算損失，得到mbox_loss。

圖中data下方每個priorbox都對應了min_size與max_size，表示不同特徵圖上的預設框在原圖上的最小與最大感受野。關於不同特徵圖上的min_size與max_size，**中給出的計算公式，可惜與實現的prototxt中的引數並不對應。

ssd的損失函式如圖3所示，由每個預設框的定位損失與分類損失構成。

ssd訓練過程中使用的資料增強對網路效能影響很大，大約有6.7%的map提公升。

(1) 隨機剪裁：取樣乙個片段，使剪裁部分與目標重疊分別為0.1, 0.3, 0.5, 0.7, 0.9，剪裁完resize到固定尺寸。

(2) 以0.5的概率隨機水平翻轉。

基礎網路部分特徵圖解析度高，原圖中資訊更完整，感受野較小，可以用來檢測影象中的小目標，這也是ssd相對於yolo檢測小目標的優勢所在。增加對基礎網路conv4_3的特徵圖的檢測可以使map提公升4%。

資料集中目標的開關往往各式各樣，因此挑選合適形狀的預設框能夠提高檢測效果。作者實驗得出使用瘦高與寬扁預設框相對於只使用正方形預設框有2.9%map提公升。

通常卷積過程中為了使特徵圖尺寸特徵圖尺寸保持不變，通過會在邊緣打padding，但人為加入的padding值會引入雜訊，因此，使用atrous卷積能夠在保持感受野不變的條件下，減少padding雜訊，關於atrous參考。本文ssd訓練過程中並且沒有使用atrous卷積，但預訓練過程使用的模型為vgg-16-atrous，意味著作者給的預訓練模型是使用atrous卷積訓練出來的。使用atrous版本vgg-16作為預訓模型比較普通vgg-16要提高0.7%map。

作者發現ssd對小目標檢測效果不好(但也比yolo要好，因此多特徵圖檢測)，這是因為小物體在高層特徵圖上保留很少的資訊，通過增加輸入影象的尺寸能夠解決對小物體檢測效果。

ssd詳解

關於atrous

目標檢測 SSD原理

目標檢測之SSD

SSD目標檢測系統

目標檢測之 SSD

目標檢測 SSD原理

目標檢測之SSD

SSD目標檢測系統

目標檢測之 SSD

相關推薦