Anchor Boxes 目標檢測質量的關鍵

2021-09-19 19:58:58 字數 2792 閱讀 4570

在學習用於目標檢測的卷積神經網路時,anchor boxes 是最難掌握的概念之一。它還是你在提高資料集的效能的時候,能夠調優的最重要的引數之一。事實上,如果 anchor boxes 沒有正確地調整,你的神經網路將永遠不會知道某些小的、大的或不規則物件的存在,並且永遠不會有機會檢測它們。幸運的是,你可以採取一些簡單的步驟來確保你不會掉進這個陷阱。

當你使用像 yolo 或 sdd 這樣的神經網路來檢測一幅影象中的多個物件時,這個網路實際上正在進行數千個檢測,並且只顯示出它確定為乙個物件的那些檢測結果。多個檢測以以下格式輸出:

** 1:(x,y,高度,寬度),類

**~(80000):(x,y,高度,寬度),類

其中,(x,y,高度,寬度) 被稱為「bounding box」。該框和物件類由人類注釋人員手動標記。

在乙個極其簡化的示例中,假設我們有乙個模型,該模型具有兩個**並接收以下影象:

** 1:梨

** 2:蘋果

或者是:

** 1:蘋果

** 2:梨

如果網路**為:

** 1:蘋果

** 2:蘋果

我們需要我們網路的兩個**器能夠分辨出梨和蘋果,這是它們的工作。要做到這一點,有幾個工具。**器可以專門用於特定大小的物件、具有一定縱橫比(高和寬)的物件,或者影象上不同部分的物件。大多數網路使用所有三個標準。在我們的梨/蘋果影象的示例中,我們可以使用 prediction 1 表示左側的物件,使用 prediction 2 表示右側的物件。然後我們就可以回答網路應該**什麼:

** 1:梨

** 2:蘋果

目前最先進的物體檢測系統如下:

為每個**器建立數千個「bounding box」或「prior boxes」,它們表示它專門用於**物件的理想位置、形狀和大小。

對於每個 bounding boxes,計算哪個物件的 bounding boxes 具有最高的重疊除以非重疊。這被稱為交叉或聯合。

如果最高 iou 大於 50%,則告訴 anchor box 它應該檢測出最高 iou 的物件。

否則,如果 iou 大於 40%,則告訴神經網路,真正的檢測是模糊的,不要從該示例中學習。

如果最高 iou 小於 40%,那麼 anchor box 應該**為沒有物件。

這個方法在實踐中表現得很好,並且數千個**器在判斷它們的物件型別是否出現在影象中這方面做得非常好。看一下 retinanet 的開源實現,它是乙個最先進的物件檢測器,我們可以視覺化 anchor box。有太多物件時不能同時視覺化,但是這裡只有 1% 個:

因為我們有非常小的面部,其**依賴於其周圍的畫素(如果存在手臂和腿,則更有可能是面部),所以我們減小了最小的 anchor box 大小,同時保持了用於** 32x32 物件的相同接收字段。使用我們的新配置,所有的面與至少乙個 anchor box 排列,我們的神經網路可以學習如何檢測它們!

我想檢測的最小尺寸的 box 是什麼?

我想要檢測的最大尺寸的 box 是什麼?

box 和檢測區域之間的比例應該是多少?即,每個 bounding box 在**時有多少依賴於它周圍的資料?

這個 box 能做什麼形狀?例如,汽車檢測器可能具有短而寬的 anchor boxes,只要汽車或照相機沒有機會側轉。

您可以通過實際計算資料集中最極端的大小和長寬比來粗略估計這些引數。另乙個物件檢測器 yolo v3 使用 k-means 來估計理想的 bounding boxes。另乙個選擇是學習 anchor box 配置。然而,重要的是要記住,您不僅希望優化物件到 anchor boxs 的對映。您還必須考慮需要多少來自周圍畫素的資訊才能正確檢測物件。例如,檢測乙個小小的臉部,你需要依賴於對整個人體的檢測。

一旦你仔細考慮過這些問題,你就可以開始設計你的 anchor boxs 了。一定要通過編碼你的實際參考標準來測試它們,然後解碼,它們太多了。你應該能夠恢復 bounding boxes。

此外,請記住,如果 bounding boxes 和 anchor boxs 的中心不同,這將降低 iou。即使你有小 anchor boxs,如果 anchor boxs 之間的距離很大,你可能會錯過一些符合標準的檢測物件。改善這一點的一種方法是將 iou 閾值從 50% 降低到 40%。

雷鋒網

目標檢測 目標檢測通用框架總結

目標檢測框架個人總結 以下是筆記中包含的內容 目標檢測網路框架總結 yolov4中有圖 從最開始的神經網路到現在深度更深,模組更多的目標檢測深度學習神經網路,如今大致可以分為two stage detector 典型的為rcnn系列 和 one stage detector 典型為yolo系列 每個...

目標檢測入門 目標檢測基本概念

目標檢測關注影象中特定的物體目標,要求同時獲得這一目標的類別資訊和位置資訊。檢測給出的是對前景和背景的理解,需要從背景中分離出感興趣的目標,並確定這一目標的描述 類別和位置,常用檢測框表示 與影象分類的區別,目標檢測更具難度 影象分類只需要判斷輸入的影象中是否包含感興趣物體,而不需要定位具體位置 如...

運動目標檢測

目錄 檢測方法 背景模型 目標檢測 後處理 檢測方法 基於統計背景模型的運動目標檢測方法 問題 1 背景獲取 需要在場景存在運動目標的情況下獲得背景影象 2 背景擾動 背景中可以含有輕微擾動的物件,如樹枝 樹葉的搖動,擾動部分不應該被看做是前景運動目標 3 外界光照變化 一天中不同時間段光線 天氣等...