跟蹤演算法總結

目前業內公認效果比較好的跟蹤演算法：

deep-sort和fairmot，二者主要區別在於：fairmot是乙個整合檢測、跟蹤的端到端演算法，檢測部分基於centernet，跟蹤部分類似deep-sort。

個人認為跟蹤演算法效能的優劣取決於兩方面：（1）檢測器的效能；（2）跟蹤策略。

常用的檢測網路：

單階檢測：

（1）yolov3/yolov4;

（2）centernet；

（3）refinedet；

兩階檢測：

（1）faster-rcnn

對比fairmot和yolov4+deep_sort的實際效果：

（1）執行幀率：前者fps=10，後者fps=30；

（2）id：前者35，後者17

跟蹤主流演算法分類

該類正規化因為通俗易懂，且表現出了不俗的追蹤精度，在2023年到2023年，一度成為mot的主流正規化。該正規化首先通過檢測器（detector）檢測出畫面中物體所在的檢測框，然後根據物體檢測框移動的規律（運動特徵）和檢測框中物體的外觀特徵（通常通過乙個reid網路抽取乙個低維的向量，叫做embedding向量）來進行前後幀同一物體的匹配，從而實現多目標追蹤。

該類正規化將mot分為了兩步，即

物體檢測

特徵提取與物體關聯

該類方法檢測與特徵提取是分開的，所以又被稱為sde

sde存在的最大缺點就是速度慢，因為將物體檢測和（外觀）特徵提取分開，檢測速度自然就下去了。

2、two-stage

聯合檢測器和嵌入學習的一種選擇是採用fasterr-cnn框架，這是一種兩級檢測器：

（1）第乙個階段，區域優先網路（rpn），與fasterr-cnn保持相同，並輸出檢測到的邊界框；

（2）第二階段，fast r-cnn通過用度量學習監督取代分類監督來轉化為嵌入學習模型。

（3）兩階段共享演算法track r-cnn 就是對 mask r-cnn 進行擴充套件，使用 roi-pool 從共享的特徵圖中獲取候選框所對應的影象特徵，並通過乙個輕量的網路針對每乙個候選框同時進行：1）檢測框回歸與分類；2）前景 mask回歸；3）re-id 特徵回歸

3、jde（joint learning of detection and embedding）jde的目的是在單次前向傳播中同時輸出目標的位置和外觀嵌入。假定有乙個資料集，i表示影象幀，b表示此幀中k個目標的邊界框注釋，y表示部分身份標籤標註，其中-1表示目標沒有身份標籤。 jde的目的是輸出**的邊界框b和外觀嵌入f，其中f中的d表示嵌入的維度。應滿足以下兩個目標。

第乙個目標要求模型能夠準確檢測目標。

第二個目標是要求外觀嵌入具有以下特性。連續幀中相同身份的檢測框之間的距離應小於不同身份之間的距離。距離度量d（·）可以是歐式距離或余弦距離。從技術上講，如果兩個目標都得到滿足，那麼即使是簡單的關聯策略，例如匈牙利演算法，也會產生良好的跟蹤結果。

jde中每個**頭的學習目標可以建模為多工學習問題。聯合目標可以表示為每個尺度和每個組成部分的加權線性損失總和。

我們採用（kendall，gal和cipolla 2018）提出的針對任務權重的自動學習方案，採用了任務無關的不確定性概念。形式上，具有自動損失平衡的學習目標寫為

存在的問題

（1）它效仿「one-stage」物體檢測器的思路，去掉了 roi-pool 層，但它依然保留了 anchor 的概念，因此也就依然存在多個（不完美匹配的）anchor 對應乙個物體的情況。

（2）乙個更嚴重的問題是同乙個 anchor（相似的影象區域）可能會對應不同的人，假如一張影象中有兩個相鄰的人，並且存在乙個 anchor 和這兩個物體的交集都很大，在前後兩個不同的時刻，因為人或相機微小的運動，可能導致該 anchor 需要輸出截然不同的身份標識，從而在很大程度上增加了網路學習的難度。

fairmot

（應該也屬於一種jde）

（1）以centernet為基礎，加入 re-id 分支，提出了 fairmot 方法，使其能夠同時進行物體檢測和跟蹤。

（2）簡單來講，fairmot 會對每乙個畫素進行**，**其是否是物體的中心、物體的大小和以其為中心的影象區域的 re-id 特徵。

（3）檢測和跟蹤兩個任務都是以「當前畫素」為中心，所以不存在對齊的問題，也不存在嚴重的顧此失彼的不公平問題，這也是稱這個方法為 fairmot 的原因。

（1）主幹網路

採用resnet-34 作為主幹網路，以便在準確性和速度之間取得良好的平衡。為了適應不同規模的物件，將深層聚合（dla）的一種變體應用於主幹網。與原始dla 不同，它在低層聚合和低層聚合之間具有更多的跳躍連線，類似於特徵金字塔網路（fpn）。此外，上取樣模組中的所有卷積層都由可變形的卷積層代替，以便它們可以根據物件的尺寸和姿勢動態調整感受野。這些修改也有助於減輕對齊問題。

（2）物體檢測分支

本方法中將目標檢測視為高解析度特徵圖上基於中心的包圍盒回歸任務。特別是，將三個並行回歸頭（regression heads）附加到主幹網路以分別估計熱圖，物件中心偏移和邊界框大小。通過對主幹網路的輸出特徵圖應用3×3卷積（具有256個通道）來實現每個回歸頭（head），然後通過1×1卷積層生成最終目標。

1）heatmap head

這個head負責估計物件中心的位置。這裡採用基於熱圖的表示法，熱圖的尺寸為1×h×w。隨著熱圖中位置和物件中心之間的距離，響應呈指數衰減。

2）center offset head

該head負責更精確地定位物件。reid功能與物件中心的對齊精準度對於效能至關重要。3）box size head

該部分負責估計每個錨點位置的目標邊界框的高度和寬度，與re-id功能沒有直接關係，但是定位精度將影響物件檢測效能的評估。

跟蹤演算法總結

近幾年跟蹤演算法總結

運動目標跟蹤演算法簡單總結（六）

目標跟蹤總結

跟蹤演算法總結

近幾年跟蹤演算法總結

運動目標跟蹤演算法簡單總結（六）

目標跟蹤總結

相關推薦