目標檢測學習總結

準備踏入object detection的學習，先建乙個blog來記錄下自己的學習內容。

在「目標檢測」任務中，主要解決的兩個問題，即影象中的多個目標物在**？【位置】以及是什麼？【類別】。通常來說，一般把其發展歷程分為三個階段：

傳統的目標檢測方法

以r-cnn為代表的結合region proposal和cnn分類的目標檢測框架（r-cnn，spp-net，fast r-cnn，faster r-cnn，r-fcn）。

以yolo為代表的將目標檢測轉換為回歸問題的end-to-end的目標檢測框架（yolo，ssd）。

脈絡梳理傳統方法—> rcnn(2014 eccv) —> sppnet (2015) —> fast rcnn (2015 iccv) —> faster rcnn (2016 nips) —> mask rcnn (2017) —> ssd (2015 eccv) —> yolo (2016 cvpr) —> yolo v2 (2016).

分為三個階段：區域選擇—>特徵提取—>分類器分類。

區域選擇：利用不同尺寸的滑動視窗框住圖中的某一部分作為獲選區域。

特徵提取：提取候選區域的相關的視覺特徵，比如人臉檢測的harr特徵；行人和普通目標檢測的hog特徵等。由於目標的形態多樣性，光照變化多樣性，背景多樣性使得設計乙個魯棒的特徵並不容易，然而提取特徵的好壞直接影響到分類的準確性。

分類器：利用分類器進行識別，比如常用的svm模型。

總結：傳統的目標檢測主要存在兩個問題：乙個是基於滑動視窗的區域選擇策略沒有針對性，時間複雜度高，視窗冗餘；二是手工設計的特徵對於多樣性的變化沒有很好的魯棒性。

針對於傳統的滑動視窗存在的時間複雜度高的問題，region proposal（候選區域）提供了很好的解決方案。region proposal利用了影象中的紋理、邊緣、顏色等資訊預先找出影象中目標可能出現的位置，可以保證在選取較少視窗的情況下保持較高的召回率。這大大降低了後續操作的時間複雜度，並且獲取的候選視窗要比滑動視窗的質量更高。

** 多尺度是計算機視覺任務中的哲學**

2023年，ross b.girshick 大神使用了 region proposal + cnn代替了傳統的滑動視窗+ 手工設計的特徵，設計了r-cnn框架，使得目標檢測取得了巨大突破，並開啟了深度學習目標檢測的熱潮。

目標檢測學習總結

目標檢測總結

目標檢測目標檢測通用框架總結

目標檢測簡單總結

目標檢測學習總結

目標檢測總結

目標檢測 目標檢測通用框架總結

目標檢測簡單總結

相關推薦

目標檢測目標檢測通用框架總結