目標檢測攻克難點秘籍系列筆記

目前兩種方向：更好的基礎網路 & 融合不同卷積層的特徵疊加

現存的一些問題：

（1）小目標物體的檢測(如小於30畫素的目標物體)、遮擋面積較大的目標以及區分影象中與目標物體外形相似的非目標物體等問題；

（2）實時性檢測與處理

（3）提高小資料量訓練的檢測效果

（4）很難獲取大量的監督資料或資料的標準成本過高,進而導致缺少用於網路訓練的樣本資料

mobilenet：深度可分離 v1 v2 v3，mobilenet 系列則發揮了深度可分離卷積的優勢，提公升了卷積計算的效率。

shufflenet：通道混洗，v1 v2 ，shufflenet系列更進一步，在分組卷積的思想上提出了通道混洗操作，避免了大量1×1卷積的操作，可謂經典。

目標檢測主要的任務：1）物件是什麼？2）物件在**？回歸損失問題就是**如何更好地學習物件在**.當然最近anchor free的方法有很多，但是主流應用上目前還是基於anchor的方式

1、nms：非極大值抑制優化

缺點有：

（1）將得分較低的邊框強制性地去掉，如果物體出現較為密集時，本身屬於兩個物體的邊框，其中得分較低的也有可能被抑制掉，降低了模型的召回率；

（2）速度：nms的實現存在較多的迴圈步驟，gpu的並行化實現不是特別容易，尤其是**框較多時，耗時較多。

（3）在一些情況下，得分高的邊框不一定位置更準；

（4）閾值難以確定。過高的閾值容易出現大量誤檢，而過低的閾值則容易降低模型的召回率，超參很難確定。

1.1、soft nms：抑制得分

softnms演算法對於iou大於閾值的邊框，沒有將其得分直接置0，而是降低該邊框的得分。

soft nms的計算複雜度與nms相同，是一種更為通用的非極大值抑制方法，可以將nms看做soft nms的二值化特例。

soft nms優缺點分析：

優點：（1）soft-nms可以很方便地引入到object detection演算法中，不需要重新訓練原有的模型、**容易實現，不增加計算量（計算量相比整個object detection演算法可忽略）。並且很容易整合到目前所有使用nms的目標檢測演算法。

（2）soft-nms在訓練中採用傳統的nms方法，僅在推斷**中實現soft-nms。作者應該做過對比試驗，在訓練過程中採用soft-nms沒有顯著提高。

（3）nms是soft-nms特殊形式，當得分重置函式採用二值化函式時，soft-nms和nms是相同的。soft-nms演算法是一種更加通用的非最大抑制演算法。

缺點：soft-nms也是一種貪心演算法，並不能保證找到全域性最優的檢測框分數重置。除了以上這兩種分數重置函式，我們也可以考慮開發其他包含更多引數的分數重置函式，比如gompertz函式等。但是它們在完成分數重置的過程中增加了額外的引數。

1.2 softer nms：加權平均

nms與soft nms演算法都使用了**分類置信度作為衡量指標，但分類置信度和定位置信是非正相關的。nms只能解決分類置信度和定位置信度都很高的，但是對其它三種型別：「分類置信度低-定位置信度低」，「分類置信度高-定位置信度低」，「分類置信度低-定位置信度高「都無法解決。

softer nms對於iou大於設定閾值的邊框座標進行了加權平均，希望分類得分高的邊框能夠利用到周圍邊框的資訊，從而提公升其位置的準確度。

1.3 iou-net：定位置信度

iou-net提出了乙個iou的**分支，解決了nms過程中分類置信度與定位置信度之間的不一致，可以與當前的物體檢測框架一起端到端地訓練，在幾乎不影響前向速度的前提下，有效提公升了物體檢測的精度

2 回歸損失函式優化：iou系列損失函式

對於有先驗框的目標檢測，位置是通過學習給定的先驗框和真實目標框的距離來進行**。而這個距離的刻畫主要通過距離公式來度量，比如曼哈頓距離l1和歐式距離l2。

利用常見的l1和l2距離公式來刻畫iou存在缺陷，主要原因還是距離度量將各個點孤立來進行，而iou刻畫的是整體的重合度問題。

2.1 iou

iou可以反映**檢測框與真實檢測框的檢測效果。還有乙個很好的特性就是尺度不變性，也就是對尺度不敏感（scale invariant），在regression任務中，判斷predict box和gt的距離最直接的指標就是iou。(滿足非負性；同一性；對稱性；三角不等性)

缺點：（1）如果兩個框沒有相交，iou=0，無梯度傳回，無法訓練；

（2）iou無法精確的反映兩者的重合度大小，下圖iou相同

2.2 giou：克服iou相同時問題

giou不僅關注重疊區域，還關注其他的非重合區域

2.3 diou：克服iou、giou讀相同問題

將目標與anchor之間的距離，重疊率以及尺度都考慮進去

2.4 ciou

diou基礎上，乙個好的回歸框損失應該考慮哪幾個點？作者給出了答案，三個要素：重疊區域，中心點的距離，寬高比。

diou考慮了重疊區域和中心點距離問題，還剩下寬高比沒考慮，因此後續提出了ciou損失。

傳統卷積網路通常採用從上到下的單行結構。對於大物體而言，其語義資訊將出現在較深的特徵圖中；而對於小物體，其語義資訊出現在較淺的特徵圖中，隨著網路的加深，其細節資訊可能會完全消失。

小尺度物體由於其尺寸較小，可利用的特徵有限，較難檢測。通常認為絕對尺寸小於32×32的物體，可以視為小物體或者物體寬高是原圖寬高的1/10以下，可以視為小物體。當前演算法對小物體不友好主要體現在以下方面：

較為通用的提公升多尺度檢測的經典方法有：

下面將詳細介紹：

1 降低下取樣率與空洞卷積：直接去除掉pooling層降低下取樣率，會導致減小後續層的感受野，因此使用空洞卷積可以在保證不改變網路解析度的前提下增加網路的感受野。

2 多尺度訓練（multi scale training, mst）：訓練時從多個尺度中隨機選取一種尺度，將輸入縮放到該尺度並送入網路中，簡單有效的trick方法。

3.優化anchor尺寸設計：anchor通常是多個不同大小與寬高的邊框，這個大小與寬高是一組超引數，需手動配置。行人標籤寬高比通常為0.41。anchor設計不合理，會給模型收斂帶來較大的困難，影響模型的精度，甚至不會收斂。可以從以下兩個角度設計一組好的anchor：

（1）統計實驗，手工設計

（2）邊框聚類：如yolo採用的anchor聚類方法。

4.深層和淺層特徵融合：層多-感受野增加-語義豐富，但小物體特徵可能會丟失。（列舉6種方式示例）

5.snip（尺度歸一化）：mst改進版，只對size在指定範圍內的目標回傳損失，解決對映遷移（domain shift）的誤差。

6.tridentnet（三叉戟網路）：將3種不同的感受野網路並行化

目前，資料增強主要方法有：

定義：指在訓練的時候各個類別的樣本數量不均衡，由於檢測演算法各不相同，以及資料集之間的差異，可能會存在正負樣本、難易樣本、類別間樣本這3種不均衡問題。一般在目標檢測任務框架中，保持正負樣本的比例為1:3（經驗值）

one-stage的精度不如two-stage的精度，乙個主要的原因是訓練過程中樣本極度不均衡造成的。

主要有：

faster rcnn引入了anchor作為先驗框，才將實時的物體檢測變為可能。

但使用anchor通常會面臨如下3個問題：

目標檢測攻克難點秘籍系列筆記

目標檢測目標檢測通用框架總結

目標檢測入門目標檢測基本概念

運動目標檢測

目標檢測攻克難點秘籍系列筆記

目標檢測 目標檢測通用框架總結

目標檢測入門 目標檢測基本概念

運動目標檢測

相關推薦

目標檢測目標檢測通用框架總結

目標檢測入門目標檢測基本概念