yolo演算法筆記

目標檢測方法yolo（you only look once），看一眼就可識別目標。與r-cnn比，有以下特點（faster-rcnn 中rpn網路吸取了該特點）：

速度很快

看到全域性資訊，而非r-cnn產生乙個個切割的目標，由此對背景的識別效率很高

可從產生的有代表性的特徵中學習。

流程:以pascal voc資料集為例。

1. 輸入448x448大小的，通過預訓練的卷積網路（vgg系列等）對特徵進行提取（如圖），最後輸出7x7大小的網路單元。

2. 每個網路單元**2個**框（不同長寬比），每個**框**該部分內包含的物體位置，分類和置信度**。所以整體資料維度為7x7x(2*(4+1)+20 ). 其中每個預測單元包括4個位置資訊（x,y,w,h），1個置信度（與真實物體的iou），20個類別資訊為兩個**框共有。

3. 如果該物體中心在該**框內，則包含該物體。置信度為iou***框包含物體的概率，其中每個**框的置信度與類別資訊相乘，得到類別置信度。之後對所有的 **框，根據類別置信度進行nms。

nms過程：對每乙個類別，將類別置信度小於0.2的**框得分設定為0，對置信度按從大到小排序，將最大的保留，之後每乙個**框計算與最大置信度**框計算iou，將iou大於0.5的**框得分設定為0。最後部分即為**，損失函式如下（與rcnn相比略微複雜，之後的系列逐漸趨同）：

訓練時現在imagenet上進行了預訓練，網路使用途中網路前20個卷積層加乙個平局池化和全連線層。預訓練之後，加上隨機初始化的4個卷積層和2個全連線層。

相對於yolov1，yolov2做了如下改進：

更好設定bn層。防止梯度消失及**。使資料分布更加相似，可提高訓練速度及泛化效能。

更高精度。yolov1使用224x224進行預訓練，yolov2直接使用448x448進行預訓練，之後在此基礎上在進行fine-tun

去除fc層及最後pooling層，直接使用卷積層單元來**，分成13x13(單數，因為發現大物體中心經常落在中心)。且引入anchor boxes概念， anchor boxes的數量及大小比例是通過聚類方式確定的。聚類後5為最優值

直接的位置**。如下圖，直接**出邊框位置。tx等為歸一化後的偏移，之後可直接算出**框位置即bx等（參考rcnn系列**位置偏移）。

5 不同尺度的預訓練，每隔10個epoch，輸入尺度增加32

6 網路結構採用fine-grained features，即採用不同的卷積特徵層，以便提取不同精細度的特徵。看原始碼含義為比如64*64可分為4個32*32然後疊加起來。與faster-rcnn的跨層聯結上有一點不同

更快引入darknet-19

分類和檢測分開，分類時先使用224x224訓練，之後將尺度改為448x448。之後檢測時去掉網路最後乙個卷積層，每個卷積層接3個3x3x1024 卷積，每個卷積接1x1卷積層。

更強即能檢測出9000個類別。對此段並不是很理解。翻譯**即採用樹狀結構，使用imagenet(分類)和coco(**)聯合訓練。訓練時，如果檢測樣本，按yolov2 loss計算誤差，對分類樣本，只計算分類誤差。**時，置信度為分類概率，同時會給出邊界框位置寄乙個樹狀概率圖，在這個概率圖中找到概率最高的路徑，當達到某一閾值時停止，就用當前節點表示**的類別。

改進：1. 引入殘差網路，使用darknet-53網路。

2. 採用3個不同尺度的卷積，yolov2是將兩個尺度的特徵圖連線起來。yolov3為三個特徵圖，且做了不同處理。每個尺度的卷積圖使用3個anchor。共3*3個anchor

3. 損失函式改進。類別**由softmax改為n個sigmoid.

更像是對yolo系列演算法的乙個總結，整體突破不太大。下個會對yolov3的tensorflow/keras原始碼進行解析

yolo演算法筆記

YOLO演算法總結

Yolo系演算法

目標檢測 YOLO演算法

yolo演算法筆記

YOLO演算法總結

Yolo系演算法

目標檢測 YOLO演算法

相關推薦