深度學習目標檢測

2021-08-15 16:50:20 字數 2801 閱讀 9160

流程狂徒如下:

1 使用selective search提取proposes,然後利用cnn等識別技術進行分類。

2 使用識別庫進行預訓練,而後用檢測庫調優引數。

3 使用svm代替了cnn網路中最後的softmax,同時用cnn輸出的4096維向量進行bounding box回歸。

4 流程前兩個步驟(候選區域提取+特徵提取)與待檢測類別無關,可以在不同類之間共用;同時檢測多類時,需要倍增的只有後兩步驟(判別+精修),都是簡單的線性運算,速度很快。

1 訓練分為多個階段,步驟繁瑣: 微調網路+訓練svm+訓練邊框回歸器。

2 訓練耗時,占用磁碟空間大:5000張影象產生幾百g的特徵檔案。

3 速度慢: 使用gpu, vgg16模型處理一張影象需要47s。

流程框圖

演算法特點

1 通過spatial pyramid pooling解決了深度網路固定輸入層尺寸的這個限制,使得網路可以享受不限制輸入尺寸帶來的好處。

2 解決了rcnn速度慢的問題,不需要對每個proposal(2000個左右)進行wrap或crop輸入cnn提取feature map,只需要對整圖提一次feature map,然後將proposal區域對映到卷積特徵層得到全鏈結層的輸入特徵。

演算法特點

1 fast-rcnn直接使用softmax替代了rcnn中svm進行分類,同時在網路中加入了多工函式邊框回歸。

2 借鑑spp-net,提出了乙個roi層。roi pooling layer實際上是spp-net的乙個精簡版,spp-net對每個proposal使用了不同大小的金字塔對映,而roi pooling layer只需要下取樣到乙個7x7的特徵圖。對於vgg16網路conv5_3有512個特徵圖,這樣所有region proposal對應了乙個7*7*512維度的特徵向量作為全連線層的輸入。

3 使用了不同於spp-net的訓練方式,訓練時,把同張的prososals作為一批進行學習,而proposals的座標直接對映到conv5層上,這樣相當於一張的所有訓練樣本只卷積了一次。

存在問題

使用selective search提取region proposals,沒有實現真正意義上的端對端,操作也十分耗時。

流程框圖:

演算法特點

1 提出了region proposal network(rpn),將proposal階段和cnn分類融到了一起,實現了乙個完全的end-to-end的cnn目標檢測模型。rpn可以快速提取高質量的proposal,不僅加快了目標檢測速度,還提高了目標檢測效能。

2 將fast-rcnn和rpn放在同乙個網路結構中訓練,共享網路引數。

演算法特點

1 將物體檢測作為回歸問題求解。基於乙個單獨的end-to-end網路,完成從原始影象的輸入到物體位置和類別的輸出,輸入影象經過一次inference,便能得到影象中所有物體的位置和其所屬類別及相應的置信概率。

2 yolo網路借鑑了googlenet分類網路結構。不同的是,yolo未使用inception module,而是使用1*1卷積層(此處1*1卷積層的存在是為了跨通道資訊整合)+3*3卷積層簡單替代。

3 fast yolo使用9個卷積層代替yolo的24個,網路更輕快,速度從yolo的45fps提公升到155fps,但同時損失了檢測準確率。

4 使用全圖作為 context 資訊,背景錯誤(把背景錯認為物體)比較少。

5 泛化能力強。

存在問題

1 yolo對相互靠的很近的物體(挨在一起且中點都落在同乙個格仔上的情況),還有很小的群體檢測效果不好,這是因為乙個網格中只**了兩個框,並且只屬於一類。

2 測試影象中,當同一類物體出現的不常見的長寬比和其他情況時泛化能力偏弱。

3 由於損失函式的問題,定位誤差是影響檢測效果的主要原因,尤其是大小物體的處理上,還有待加強。

網路結構圖:

演算法特點

1 ssd結合了yolo中的回歸思想和faster-rcnn中的anchor機制,使用全圖各個位置的多尺度區域特徵進行回歸,既保持了yolo速度快的特性,也保證了視窗**的跟faster-rcnn一樣比較精準。

2 ssd的核心是在特徵圖上採用卷積核來**一系列default bounding boxes的類別、座標偏移。為了提高檢測準確率,ssd在不同尺度的特徵圖上進行**。

ssd和yolo速度快的原因:

感受野:卷積神經網路每一層輸出的特徵圖(feature map)上的畫素點在原始影象上對映的區域大小。

卷積輸入和輸出計算公式:

output field size = ( input field size - kernel size + 2*padding ) / stride + 1

深度學習(六) 目標檢測

多個目標 思路 區域性識別問題 優點生成候選位置 擴充套件 過程 優點 缺點 候選位置提醋和方法 候選框進行svm分類 fine tune分類模型 特徵提取 單獨目標探測器訓練 資料集 評估方法 iou 優點 缺點 特徵一致化max pooling 位置 類別 聯合學習 速度快了精度提公升不多 怎麼...

深度學習 目標檢測理論筆記

主要內容來自於對 專知深度學習 高君宇 教學資料的梳理筆記 和 來自網際網路知識的輔助理解,感謝。目標檢測就是在一張中找到所有的物體並且給出其類別和邊框 bounding box 如圖。早期的目標檢測有很多模型,典型的有基於部件的模型 dpm pedro f在2010年提出來的利用hog對多精度下的...

(深度學習)目標檢測常見術語

簡言之就是基於深度學習目標檢測中提前預設的一組不同尺度不同位置的固定參考框。這個anchor在faster rcnn上面也叫reference boxes,也就是參考框。1.傳統目標檢測 金字塔多尺度 遍歷滑窗的方式,逐尺度逐位置判斷 這個尺度的這個位置處有沒有認識的目標 非常笨重耗時。2.基於深度...