yolov1 v3系列學習

參考：

yolo系列演算法是one stage思想的，即直接提取特徵來**物體的類別和位置。

其核心思想是輸入整個，提取特徵後直接進行回歸/分類。

**細節如下：

網路結構如下：

啟用函式：最後一層使用的是標準的線性啟用函式，其他的層都使用leaky relu 。

3.損失函式

由上一步可知，yolov1的損失分為3個方面，座標損失，置信度損失，分類損失，作者全部使用了mse作為損失函式，但如果直接相加的話，無法權衡8維座標（因為是2個bbox）損失和2維的置信度損失和20維的分類損失的重要程度。考慮到每個損失的貢獻率，作者給座標損失權重λco

ord}_}}}

λcoord

=5。又因為在一幅中，沒有目標的網格占多數，所給給沒有目標的置信度損失權重λno

obj}_}}}

λnoobj

=0.5，有目標的置信度損失為1。如下：

其中 1ij

obj=

}_^ = \left\ \right\}

1ijobj

=,表示第i個網格第j個bbox是否包含目標。1io

bj}_i^

1iobj

表示包含目標的第i個網格。對應到輸出tensor上如下圖：

注意到，對於分類損失，只有當網格包含目標時，才會計算，不包含目標時，分類全置為0，不參與運算，可參考吳恩達的相關課程。

注意到，座標損失中關於w和h，採用的是開根號的形式，對映到下面這張圖上。這時因為，對於不同大小的bbox，寬和高計算出的偏移量損失貢獻率是不一樣的，採用根號的形式，可以盡量減小對小bbox的敏感度。這樣子可以稍微平衡一下大bbox和bbox對損失的貢獻率。這樣子可以使得訓練波動更小一點。

總的來說，這樣設計損失函式可以讓座標，置信度，分類概率三者達到乙個較好的平衡。

但仍存在一些不足

yolov1的精度相對於其他網路還比較低。

1）batch normnization

2）相比於v1，採用了anchor box，把**類別的機制從空間位置(cell)中解耦，由anchor box同時**類別和座標。因為yolo是由每個cell來負責**類別，每個cell對應的2個bounding box 負責**座標（回想yolo中最後輸出7730的特徵，每個cell對應1130，前10個主要是2個bounding box用來**座標，後20個表示該cell在假設包含物體的條件下屬於20個類別的概率，具體請參考 **yolo 的圖示）。yolov2中，不再讓類別的**與每個cell（空間位置）繫結一起，而是讓全部放到anchor box中。下面是特徵維度示意圖（僅作示意並非完全正確）

在yolov1中，對每乙個網格，作者都設計了2個**框來**裡面的目標，這兩個框的產生是人為選擇的，大小的人為設定的。yolov2不用自定義anchor box的尺寸，而是在訓練集上對anchor box進行kmeans聚類，自動找到良好的anchor box 尺寸，作者設定anchor box數量為5。

傳統的kmeans演算法，採用歐氏距離最小原則來更新質心，但是對於本文來說，由於anchor box刻畫形式為（x1，y1，w，h），採用歐式距離的話，會導致大框比小框產生更多的誤差。所以，作者巧妙設計了用iou來度量這個距離公式。因為不同尺寸的anchor box 與ground truth 的iou值與anchor box的尺寸無關。公式如下

注意，在計算anchor boxes時，將所有boxes中心點的x，y座標都置為0，這樣所有的boxes都處在相同的位置上，方便我們通過新距離公式計算boxes之間的相似度，聚類只針對w和h,即以w和h為特徵維度的anchor box

d (b

ox,c

entr

oid)

=1−i

ou(b

ox,c

entr

oid)

d\left( }} \right) = 1 - iou\left( }} \right)

d(box,

cent

roid

)=1−

iou(

box,

cent

roid

)

由於待計算的anchor boxes的width和height都是相對於整張的比例，而yolov2通過anchor boxes得到最優的框座標時，座標是相對於網格邊長的比例（0到1之間），因此要將anchor boxes的width和height也轉換為相對於柵格邊長的比例。轉換公式如下：

w=anchor_width * input_width / downsamples

h=anchor_height * input_height / downsamples

例如；卷積神經網路的輸入為416*416時，yolov2網路的降取樣倍率為32，例如k-means計算得到的乙個anchor

box的anchor_width=0.2,anchor_height=0.6,則：

w=0.2 * 416 / 32=0.2 * 13=2.6

h=0.6 * 416 / 32=0.6 * 13=7.8

參考：

3）高解析度的分類器

在訓練物體檢測任務時，會使用在imagenet資料集上的預訓練模型作為特徵提取器，而這個預訓練模型，輸入的影象解析度通常在224x224而在訓練物體檢測任務時，需要的影象解析度要更高（原因是影象越大，物體越清晰，越容易檢測到物體），這樣會造成兩者的輸入影象尺寸不一致。在yolo v1中，作者先是在224x224大小的輸入影象上訓練檢測模型，然後將影象解析度提公升至448x448，在檢測資料集上finetune。

為了更好地適應解析度的差異，yolo v2選擇先在imagenet上finetune高解析度（448x448）的模型（10 epochs），然後再訓練檢測模型，這樣就「弱化」了分類模型和檢測模型在輸入影象解析度上的「不一致」。

yolov1 v3系列學習

Redis系列學習筆記3 雜湊

Git系列學習（1）基礎配置

目標檢測 YOLO系列v1 v2 v3

yolov1 v3系列學習

Redis系列學習筆記3 雜湊

Git系列學習（1） 基礎配置

目標檢測 YOLO系列v1 v2 v3

相關推薦

Git系列學習（1）基礎配置