Yolo系演算法

一．yolo系演算法

目前深度學習相關的目標檢測方法大致可以分為兩派：

1、基於區域提名的（regin proposal）的，比如r-cnn、spp-net、fast r-cnn、faster r-cnn、r-fcn。

2、基於端到端（end to end）的，無需候選區域，如yolo、ssd。

二者發展都很迅速，區域提名準確率較好、端到端的方法速度較快。

1）yolo v1：

核心思想：

將整張作為網路的輸入，直接在輸出層對bounding box的位置和所屬類別進行回歸。將目標定位和目標類別**整合於在單個神經網路模型中。

yolo檢測系統步驟簡單直接，可以看做只有三步：

1.yolo檢測系統先將輸入影象調整到448×448；

2.在影象上執行卷積網路；

3.通過模型的置信度對結果進行閾值。

實現細節：

1.將一幅影象分成 s×s 個網格(grid cell)，如果某個object的中心落在某個網格中（通過ground-truth框確定），則這個網格就負責**這個object。

2.每個網格要**b個bounding box，每個box除了要回歸自身的位置之外，還要附帶**乙個confidence值。這個值代表了所**的bounding box中是否含有object和若有object，這個object**得有多準的兩重資訊，3. 每個網格單元針對20種類別**bboxes屬於單個類別的條件概率p r ( c l a s s i ∣ o b j e c t ) pr(class_i | object)pr(classi∣object)，屬於同乙個網格的b個bboxes共享乙個條件概率。在測試時，將條件概率分別和單個的bbox的confidence**相乘

4. 在pascal voc中，yolo檢測系統的影象輸入為448×448，s=7，b=2，一共有20個class（c=20），輸出就是7×7×30的乙個tensor。

網路結構：

yolo使用了24個級聯卷積層和最後2個全連線層，交替的1×1卷積層降低了前面層的特徵空間。在imagenet分類任務上使用解析度的一半（224×224輸入影象）對卷積層進行預訓練，然後將解析度加倍進行目標檢測。

yolo網路借鑑了googlenet的思想，但與之不同的是，為了更好的效能，它增加額外的4層卷積層（conv）。yolo一共使用了24個級聯的卷積層和2個全連線層（fc），其中conv層中包含了1×1和3×3兩種kernel，最後乙個fc全連線層後經過reshape之後就是yolo網路的輸出，是長度為s×s×(b×5+c)=7×7×30的tensor，最後經過識別過程得到最終的檢測結果。

每個bounding box要**(x,y,w,h,confidence)五個值，一張共分為s×s個網格，每個網格要**出b個bounding box和乙個網格負責的object的類別資訊，記為c。則輸出為s ∗ s ∗ ( 5 ∗ b + c ) ss(5*b+c)s∗s∗(5∗b+c)的tensor張量，(x,y)表示bounding box相對於網格單元的邊界的offset，歸一化到(0,1)範圍之內，而w,h表示相對於整個的**寬和高，也被歸一化到(0,1)範圍內。c代表的是object在某個bounding box的confidence。

歸一化：

dbl: 如圖1左下角所示，也就是**中的darknetconv2d_bn_leaky，是yolo_v3的基本元件。就是卷積+bn+leaky relu。對於v3來說，bn和leaky relu已經是和卷積層不可分離的部分了(最後一層卷積除外)，共同構成了最小元件。

resn：n代表數字，有res1，res2, … ,res8等等，表示這個res_block裡含有多少個res_unit。這是yolo_v3的大元件，yolo_v3開始借鑑了resnet的殘差結構，使用這種結構可以讓網路結構更深(從v2的darknet-19上公升到v3的darknet-53，前者沒有殘差結構)。對於res_block的解釋，可以在圖1的右下角直**到，其基本元件也是dbl。

concat：張量拼接。將darknet中間層和後面的某一層的上取樣進行拼接。拼接的操作和殘差層add的操作是不一樣的，拼接會擴充張量的維度，而add只是直接相加不會導致張量維度的改變。

整個yolo_v3_body包含252層，組成如下：

對於**層面的layers數量一共有252層，包括add層23層(主要用於res_block的構成，每個res_unit需要乙個add層，一共有1+2+8+8+4=23層)。除此之外，bn層和leakyrelu層數量完全一樣(72層)，在網路結構中的表現為：每一層bn後面都會接一層leakyrelu。卷積層一共有75層，其中有72層後面都會接bn+leakyrelu的組合構成基本元件dbl。看結構圖，可以發現上取樣和concat都有2次，和**分析中對應上。每個res_block都會用上乙個零填充，一共有5個res_block。

backbone

整個v3結構裡面，是沒有池化層和全連線層的。前向傳播過程中，張量的尺寸變換是通過改變卷積核的步長來實現的。

yolo_v3也和v2一樣，backbone都會將輸出特徵圖縮小到輸入的1/32。所以，通常都要求輸入是32的倍數。yolo_v3並沒有那麼追求速度，而是在保證實時性(fps>36)的基礎上追求performance。不過前面也說了，你要想更快，還有乙個 tiny-darknet作為backbone可以替代darknet-53，在官方**裡用一行**就可以實現切換backbone。搭用tiny-darknet的yolo，也就是tiny-yolo在輕量和高速兩個特點上，顯然是state of the art級別，tiny-darknet是和squeezenet正面剛的網路，詳情可以看下表

所以，有了yolo v3，就真的用不著yolo v2了，更用不著yolo v1了。這也是yolo官方**

yolo v3輸出了3個不同尺度的feature map，如上圖所示的y1, y2, y3。這也是v3**中提到的為數不多的改進點：predictions across scales。這個借鑑了fpn(feature pyramid networks)，採用多尺度來對不同size的目標進行檢測，越精細的grid cell就可以檢測出越精細的物體。

y1,y2和y3的深度都是255，邊長的規律是13:26:52。yolo v3設定的是每個網格單元**3個box，所以每個box需要有(x, y, w, h, confidence)五個基本引數，然後還要有80個類別的概率。所以3*(5 + 80) = 255。這個255就是這麼來的。（還記得yolo v1的輸出張量嗎？ 7x7x30，只能識別20類物體，而且每個cell只能**2個box，和v3比起來就像老人機和iphonex一樣）

3. some tricks

bounding box prediction：

b-box**手段是v3**中提到的又乙個亮點

對於v3而言，在prior這裡的處理有明確解釋：選用的b-box priors 的k=9，對於tiny-yolo的話，k=6。priors都是在資料集上聚類得來的，有確定的數值，如下:

10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326

每個anchor prior(名字叫anchor prior，但並不是用anchor機制)就是兩個數字組成的，乙個代表高度另乙個代表寬度。v3對b-box進行**的時候，採用了logistic regression。v3每次對b-box進行predict時，輸出和v2一樣，然後通過公式1計算出絕對的(x, y, w, h, c)。logistic回歸用於對anchor包圍的部分進行乙個目標性評分(objectness score)，即這塊位置是目標的可能性有多大。這一步是在predict之前進行的，可以去掉不必要anchor，可以減少計算量。

loss function：

對掌握yolo來講，loss function不可謂不重要。我們知道，在目標檢測任務裡，有幾個關鍵資訊是需要確定的:

( x , y ) , ( w , h ) , c l a s s , c o n f i d e n c e

根據關鍵資訊的特點可以分為上述四類，損失函式應該由各自特點確定。最後加到一起就可以組成最終的loss_function了，也就是乙個loss_function搞定端到端的訓練。可以從**分析出v3的損失函式，同樣也是對以上四類，不過相比於v1中簡單的總方誤差，還是有一些調整的。除了w, h的損失函式依然採用總方誤差之外，其他部分的損失函式用的是二值交叉熵。

Yolo系演算法

YOLO演算法總結

yolo演算法筆記

目標檢測 YOLO演算法

Yolo系演算法

YOLO演算法總結

yolo演算法筆記

目標檢測 YOLO演算法

相關推薦