物體檢測網路概述

yolo：實時快速目標檢測

yolo詳解

傳統目標檢測系統採用deformable parts models (dpm)方法，通過滑動框方法提出目標區域，然後採用分類器來實現識別。近期的r-cnn類方法採用region proposal methods，首先生成潛在的bounding boxes，然後採用分類器識別這些bounding boxes區域。最後通過post-processing來去除重複bounding boxes來進行優化。這類方法流程複雜，存在速度慢和訓練困難的問題。

yolo採用單個卷積神經網路來**多個bounding boxes和類別概率；yolo將物體檢測作為乙個回歸問題進行求解，輸入影象經過一次inference，便能得到影象中所有物體的位置和其所屬類別及相應的置信概率。而rcnn/fast rcnn/faster rcnn將檢測結果分為兩部分求解：物體類別（分類問題），物體位置即bounding box（回歸問題）。

個人覺得，分析比較faster yolo ssd這幾種演算法，有乙個問題要先回答，yolo ssd為什麼快？最主要的原因還是提proposal（最後輸出將全連線換成全卷積也是一點）。其實總結起來我認為有兩種方式：1.rpn，2. 暴力劃分。rpn的設計相當於是乙個sliding window 對最後的特徵圖每乙個位置都進行了估計，由此找出anchor上面不同變換的proposal，設計非常經典，代價就是sliding window的代價。相比較 yolo比較暴力，直接劃為7*7的網格，估計以網格為中心兩個位置也就是總共98個」proposal「。快的很明顯，精度和格仔的大小有關。ssd則是結合：不同layer輸出的輸出的不同尺度的 feature map提出來，劃格仔，多種尺度的格仔，在格仔上提「anchor」。結果顯而易見。還需要說明乙個核心：目前雖然已經有更多的rcnn，但是faster rcnn當中的rpn仍然是乙個經典的設計。下面來說一下rpn：（當然你也可以將yolo和ssd看作是一種rpn的設計）

簡明一些的解釋

r-cnn估計候選位置資訊，針對所有候選區域的二維特徵圖，逐一執行cnn推演得到類別資訊。

fast r-cnn（重複 r-cnn）估計候選位置資訊，基於候選區域的特徵圖生成一維特徵向量，逐一執行fc推演同時得到類別和位置資訊。

faster r-cnn基於所謂的區域選擇網路估計候選區域，（重複fast r-cnn）基於候選區域的特徵圖生成一維特徵向量，逐一執行fc推演同時得到類別和位置資訊。

fpn與其它模型只用單層特徵相比，fpn將高層特徵圖融合至多個低層特徵圖。即提供具有強壯語義的多層特徵圖，進而增強模型對小目標的處理能力。faster r-cnn 加入 fpn 後，顯著提公升了檢測能力。

ssd不同於其他模型提取候選區域，ssd 使用所謂的錨箱替代區域選擇網路，同時估計目標的類別資訊和位置資訊。

評價這一系列方法

觀察 r-cnn -> fast r-cnn -> faster r-cnn + fpn -> ssd 的發展過程，由直觀但繁瑣的 r-cnn 逐漸發展至可端到端訓練的 faster r-cnn 和 ssd，演算法精度的持續上公升或提高檢測速度的過程中，新演算法彌補了上一種演算法中的顯著弱勢。發展趨勢合情合理，卻又讓人覺得精妙稱讚。作為總結，靜心分析已有演算法，有利於了解研究現狀，站在巨人的肩膀上更會產出優秀的成果。

1. [fast r-cnn]

2. [faster r-cnn] towards real-time object detection with region proposal networks

3. [fpn] feature pyramid networks for object detection

4. [ssd] single shot multibox detectior

===

知乎筆記：

rcnn-將cnn引入目標檢測的開山之作

sppnet-引入空間金字塔池化改進rcnn

fast r-cnn

faster r-cnn

**yolo

ssd

yolo2

曉雷機器學習筆記

參考：

[1] r-cnn: girshick r, donahue j, darrell t, et al. rich feature hierarchies for accurate object detection and semantic segmentation[c], cvpr, 2014.

[2] sppnet: he k, zhang x, ren s, et al. spatial pyramid pooling in deep convolutional networks for visual recognition[c], eccv, 2014.

[3] fast-rcnn: girshick r. fast r-cnn[c]. iccv, 2015. [4] fater-rcnn: ren s, he k, girshick r, et al. faster r-cnn: towards real-time object detection with region proposal networks[c]. nips, 2015.

[5] yolo: redmon j, divvala s, girshick r, et al. you only look once: unified, real-time object detection[j]. arxiv preprint arxiv:1506.02640, 2015.

物體檢測網路概述

平面物體檢測

DPM物體檢測相關

dlib物體檢測開發

物體檢測網路概述

平面物體檢測

DPM物體檢測相關

dlib物體檢測開發

相關推薦