目標檢測學習總結

2021-09-24 18:48:49 字數 1329 閱讀 1722

準備踏入object detection的學習,先建乙個blog來記錄下自己的學習內容。

在「目標檢測」任務中,主要解決的兩個問題,即影象中的多個目標物在**?【位置】以及是什麼?【類別】。通常來說,一般把其發展歷程分為三個階段:

傳統的目標檢測方法

以r-cnn為代表的結合region proposal和cnn分類的目標檢測框架(r-cnn,spp-net,fast r-cnn,faster r-cnn,r-fcn)。

以yolo為代表的將目標檢測轉換為回歸問題的end-to-end的目標檢測框架(yolo,ssd)。

脈絡梳理傳統方法—> rcnn(2014 eccv) —> sppnet (2015) —> fast rcnn (2015 iccv) —> faster rcnn (2016 nips) —> mask rcnn (2017) —> ssd (2015 eccv) —> yolo (2016 cvpr) —> yolo v2 (2016).

分為三個階段:區域選擇—>特徵提取—>分類器分類。

區域選擇:利用不同尺寸的滑動視窗框住圖中的某一部分作為獲選區域。

特徵提取:提取候選區域的相關的視覺特徵,比如人臉檢測的harr特徵;行人和普通目標檢測的hog特徵等。由於目標的形態多樣性,光照變化多樣性,背景多樣性使得設計乙個魯棒的特徵並不容易,然而提取特徵的好壞直接影響到分類的準確性。

分類器:利用分類器進行識別,比如常用的svm模型。

總結:傳統的目標檢測主要存在兩個問題:乙個是基於滑動視窗的區域選擇策略沒有針對性,時間複雜度高,視窗冗餘;二是手工設計的特徵對於多樣性的變化沒有很好的魯棒性。

針對於傳統的滑動視窗存在的時間複雜度高的問題,region proposal(候選區域)提供了很好的解決方案。region proposal利用了影象中的紋理、邊緣、顏色等資訊預先找出影象中目標可能出現的位置,可以保證在選取較少視窗的情況下保持較高的召回率。這大大降低了後續操作的時間複雜度,並且獲取的候選視窗要比滑動視窗的質量更高。

** 多尺度是計算機視覺任務中的哲學**

2023年,ross b.girshick 大神使用了 region proposal + cnn代替了傳統的 滑動視窗+ 手工設計的特徵,設計了r-cnn框架,使得目標檢測取得了巨大突破,並開啟了深度學習目標檢測的熱潮。

目標檢測總結

盡量選擇支援 voc 格式的資料集的演算法,目前仍然以兩階段為主,faster rcnn fpn 網路為 backubone 為主,以商湯 mmdetection 為代表。voc 與 coco 資料集區別,coco 格式資料集作為輸入會過濾掉沒有目標的,會造成負樣本大量減少。voc 格式資料集作為輸...

目標檢測 目標檢測通用框架總結

目標檢測框架個人總結 以下是筆記中包含的內容 目標檢測網路框架總結 yolov4中有圖 從最開始的神經網路到現在深度更深,模組更多的目標檢測深度學習神經網路,如今大致可以分為two stage detector 典型的為rcnn系列 和 one stage detector 典型為yolo系列 每個...

目標檢測簡單總結

two stage 參考資料 按照stage可以分為 two stage 谷歌在speed accuracy trade offs for modern convolutional object detectors中將目標檢測模型分為了三種元結構faster r cnn,r fcn和ssd 網上文章...