解決目標檢測中的難分樣本（漏檢測與誤檢測問題）

****：

asdn網路使用roi池層提取的功能作為輸入影象補丁。 asdn網路比**遮擋/退出掩碼，然後將其用於丟棄特徵值並傳遞到fast-rcnn的分類塔。對抗空間丟棄網路（asdn），它學習如何封閉給定的目標，使得frcn難以對其進行分類。我們在本文中考慮的第二種型別的生成是變形。在這種情況下，我們提出了對抗空間變換網路（astn），它學習如何旋轉物體的「部件」，使其難以被檢測器識別。通過與這些網路的競爭和克服障礙，frcn學會以魯棒的方式處理物體遮擋和變形。請注意，所提出的網路asdn和astn在訓練期間與frcn一起同時學習。聯合訓練能防止檢測器對固定生成的特徵產生過擬合。

相比於在輸入影象上產生遮擋和變形，我們發現在特徵空間上的操作更有效率。因此，我們設計對抗網路來修改特徵，使目標變得更難識別。請注意，這兩個網路僅在訓練過程中應用才能改進檢測器。我們將首先單獨介紹asdn和astn，然後在統一的框架中將它們組合在一起。在roi-pooling層之後獲得每個前景目標候選區域的卷積特徵。我們使用這些基於區域的特徵作為對抗網路的輸入。對於乙個目標的特徵，asdn將嘗試生成乙個掩碼，指示要丟棄的特徵的哪些部分（分配零），以便檢測器無法識別目標。對抗空間變換網路（astn）

我們現在介紹對抗空間變換網路（astn）。我們的關鍵思想是在目標特徵上建立變形，並使檢測器的目標識別變得困難。我們的網路建立在[14]中提出的空間變換網路（stn）上。在他們的工作中，stn被提出來使特徵變形，使分類更容易。而我們的網路正在完成相反的任務。通過與我們的astn網路競爭，我們可以訓練乙個更好的對變形具有魯棒性的檢測器。

stn概述。空間變換網路[14]有三個部分：定位網路，網格生成器和取樣器。對於輸入的特徵圖，定位網路將估計要變形的量（例如，旋轉度，平移距離和縮放因子）。這些變數將被用作在特徵圖上的網格生成器和取樣器的輸入。輸出是變形的特徵圖。請注意，我們只需要了解定位網路中的引數。stn的關鍵貢獻之一是使整個過程是可微分的，從而可以通過反向傳播直接優化分類目標的定位網路。有關更多技術細節，請參閱[14]。

對抗stn。在我們的對抗空間變換網路中，我們專注於特徵圖旋轉。也就是說，在roi-pooling層後給出了乙個特徵圖作為輸入，我們的astn將學習旋轉特徵圖，使其更難識別。我們的定位網路由3個完全連線的層組成，其中前兩層使用來自imagenet預訓練網路的fc6和fc7層進行初始化，就像我們的對抗空間丟棄網路一樣。

我們共同訓練astn和fast-rcnn檢測器。對於訓練檢測器，類似於asdn中的過程，roi-pooling之後的特徵首先由astn進行轉換，並**到較高層以計算softmax損失。為了訓練astn，我們優化它以便檢測器將前景目標分類為背景類。與asdn不同，由於空間變換是可以微分的，我們可以直接使用分類損失來對astn的定位網路中的引數進行回溯和微調。

實現細節。在我們的實驗中，我們發現限制astn的旋轉度非常重要。否則，很容易將目標上下顛倒，這在大多數情況下是最難識別的。我們將旋轉度限制在順時針和逆時針10度以內。相比於沿同一方向旋轉所有特徵圖，我們將通道尺寸上的特徵圖劃分為4個塊，並為不同的塊估計4個不同的旋轉角度。由於每個通道對應於一種型別的啟用特徵，旋轉通道分別對應於導致變形的不同方向的物體的旋轉部分。我們還發現，如果我們對所有特徵圖使用乙個旋轉角度，astn將經常**最大的角度。通過使用4個不同的角度而不是乙個，我們增加了任務的複雜性，防止網路**瑣碎的變形。

2.3 對抗融合

兩個對抗網路asdn和astn也可以在同乙個檢測框架中組合在一起並聯合訓練。由於這兩個網路提供不同型別的資訊。通過同時競爭這兩個網路，我們的檢測器變得更加健壯。

我們將這兩個網路以順序的方式組合到fast-rcnn框架中。如圖4所示，在roi-pooling之後提取的特徵對映首先進入到我們的asdn，asdn會刪除一些啟用值。修改後的特徵由astn進一步變形。

asdn分析。我們比較我們的對抗空間丟棄網路與使用alexnet架構的訓練中的各種丟棄/遮擋策略。我們嘗試的第乙個簡單基線是roi-pooling後的特徵的隨機空間丟棄。為了公平的比較，我們遮蔽了與asdn網路中相同數量神經元的啟用值。如表2所示，隨機丟失的表現為57.3％map，略好於基線。我們比較的另乙個丟棄策略是我們在訓練asdn時應用的類似策略（圖3）。我們詳細列舉了不同種類的遮擋，並在每次迭代中選擇最好的遮擋進行訓練。表現為57.7％的map（ours（hard dropout）），略好於隨機丟棄。

我們發現窮舉策略只能探索非常有限的遮擋策略空間，我們使用預先訓練的asdn網路來代替它。然而，當我們固定asdn的引數時，我們發現效能是57.5％的map（ours（fixed asdn）），這不如窮盡的策略。原因是固定的asdn沒有收到更新fast-rcnn的任何反饋，而詳盡的搜尋得到了反饋。如果我們一起共同學習asdn和fast-rcnn，我們可以獲得58.5％的map，與沒有丟棄策略的基線相比，map提高1.5％。這個證據表明，asdn和fast-rcnn的共同學習是有所不同的。

astn分析。我們將對抗空間變換網路與目標候選區域的隨機抖動進行了比較。增強包括對fast-rcnn進行訓練的尺寸的隨機變化，縱座標和旋轉。使用alexnet，使用隨機抖動的效能為57.3％map，而astn結果為58.1％。使用vgg16，隨機抖動有68.6％ｍap而astn有69.9％map。對於這兩種架構，astn的模型比隨機抖動更好。

簡單的閱讀ohem

****：

解決目標檢測中的難分樣本（漏檢測與誤檢測問題）

目標檢測中的正負樣本

小樣本目標檢測研究現狀

目標檢測中region proposal

解決目標檢測中的難分樣本（漏檢測與誤檢測問題）

目標檢測中的正負樣本

小樣本目標檢測研究現狀

目標檢測中region proposal

相關推薦