YOLO V3的一些細節

2021-09-09 02:23:09 字數 1095 閱讀 5541

yolo的基本思想是通過多層cnn**bounding box的中心(x,y)座標及其長寬,當然也少不了類別資訊,參考[1]。

yolo-v3的結構/基本原理是什麼樣?有哪些重要的引數/概念?yolo-v3的優點是什麼?下文著重講解。

根據yolo-v3原創*****[2]的內容,yolo-v3使用了乙個含有53個卷積層的cnn作為feature extraction。

由圖中可見,這個cnn是由多組conv+conv+residual的結構疊加而成的。其中residual殘差的原理見[3]。

yolo-v3是用darknet框架(輕量級的類似tensorflow的框架)實現的,所以這個網路也稱為darknet-53。根據作者的對比測試,該網路效能好於其他網路。

這裡有乙個該模型的實現**可供參考。

為了實現多標籤分類,模型不再使用softmax函式作為最終的分類器,而是使用logistic作為分類器,使用 binary cross-entropy作為損失函式。

yolo v3從三種不同尺度的特徵圖譜(不同卷積層的輸出)上進行**任務,一共進行了3次**。詳見[4]。

anchor的唯一作用就是為了計算iou,從而來確定正負樣本[6]。

yolov3-voc.cfg中這組anchor,anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326,由作者通過對voc資料集進行kmeans聚類得到的[7]。

作者在coco資料集上對yolo-v3進行了評價。

coco is a large-scale object detection, segmentation, and captioning dataset.

在320×320的影象上,yolo-v3執行速度達到了22.2毫秒。其與ssd一樣準確,但速度快了三倍。

yolo-v3原作者是用darknet框架(輕量級的類似tensorflow的框架)實現的,github上有keras的版本:

[8]中給出了不同訓練的實際,根據這些結果,用gpu估計也是2 weeks。

YOLOv3之一些細節

yolov3裡有很多細節需要注意,下面就把那裡面的一些細節總結一下。先驗邊框,也可以叫建議框,錨框 anchorbox 是對coco資料集的真實框kmeans聚類獲得,對目標物體的真實框具有代表性。在yolov3中,3個不同深度的網路輸出52 52,26 26,13 13這三種不同尺寸的特徵圖,一共...

yolov3的缺點 yolov3特點總結

p1,yolov3,簡單總結下比較特別的地方 1.bounding box 中心值x,y的 是通過乙個sigmoid 函式,來 在每乙個單元 cell 的相對位置。而不像普通那種 乙個相對於anchor的offset。然後bbox 損失是用的mse 一般都是用smooth l1 3.類別 沒有使用s...

YOLOv3 從入門到部署 (一)YOLOv3概述

這是目標檢測領域常用的兩個資料集。voc和coco的區別主要在於影象標註的格式不一樣。voc將目標的標籤資訊以某種格式儲存在.xml格式的檔案中,而coco則是儲存在.txt檔案中。因此有時候voc和coco不是指資料集,而是指資料集標註格式。我們完全沒有必要去研究每種標註格式的細節,網路也有大量的...