KITTI2D及3D車輛檢測演算法

表1 基於視覺資訊的kitti資料集車輛檢測榜

method

moderate

easy

hard

runtime

subcnn[1]

89.04 %

90.81 %

79.27 %

2 s / gpu

ms-cnn[2]

89.02 %

90.03 %

76.11 %

0.4 s / gpu

sdp+rpn[3]

88.85 %

90.14 %

78.38 %

0.4 s / gpu

mono3d[4]

88.66 %

92.33 %

78.96 %

4.2 s / gpu

3dop[5]

88.64 %

93.04 %

79.10 %

3s / gpu

mv3d (lidar+mono)[6]

87.67 %

89.11 %

79.54 %

0.45 s / gpu

sdp+crc[7]

83.53 %

90.33 %

60.70 %

0.6 s / gpu

faster r-cnn[8]

81.84 %

86.71 %

65.38 %

2 s / gpu

aog[9]

75.94 %

84.80 %

60.70 %

3 s / 4 cores

3dvp[10]

75.77 %

87.46 %

65.38 %

40 s / 8 cores

lsvm-mdpm[11]

56.48 %

68.02 %

44.18 %

10 s / 4 cores

acf[12]

54.74 %

55.89 %

42.98 %

0.2 s / 1 core

注：基於目標大小/遮擋/截斷水平的不同難度等級的ap值。數字越高表示綜合性能越好

由於kitti資料集包含許多不同尺度的目標和經常嚴重遮擋或截斷的小目標。使用基於區域的網路很難檢測到這些物件。因此，已經提出了幾種獲得更好的目標建議的方法（ms-cnn[2]等）。

使用從立體相機對估計的3d資訊有更好的幫助。受此啟發，chen等人mono3d[4]提出單目影象的類特定3d物件建議，他們對3d候選框使用3d點雲特徵對它們進行評分。最後，利用上下文資訊和使用多工損失的cnn共同回歸物件的座標和方向。

cai等人（2016）ms-cnn[2]提出了一種由提案子網路和檢測子網路組成的多尺度cnn。生成建議框網路在多個輸出層執行檢測，並將這些互補的特定尺寸的檢測器組合起來以產生強大的多尺度物件檢測器(soa)。

表2 基於lidar資訊的kitti資料集車輛檢測榜

method

moderate

easy

hard

runtime

mv3d (lidar + mono)[6]

87.67 %

89.11 %

79.54 %

0.45 s / gpu

mv3d (lidar)[6]

79.24 %

87.00 %

78.16 %

0.3 s / gpu

mv-rgbd-rf[13]

69.92 %

76.40 %

57.47 %

4 s / 4 cores

vote3deep[14]

68.24 %

76.79 %

63.23 %

1.5 s / 4 cores

velofcn[15]

53.59 %

71.06 %

46.92 %

1 s / gpu

vote3d[16]

47.99 %

56.80 %

42.57 %

0.5 s / 4 cores

csor[17]

26.13 %

34.79 %

22.69 %

3.5 s / 4 cores

kitti資料集提供同步相機和lidar資料，並允許在相同的資料上比較基於影象和基於lidar的方法。與相機相比，lidar雷射距離感測器直接提供準確的3d資訊，從而簡化了候選物件的提取，並可為分類任務提供有用的3d形狀資訊。然而，來自雷射掃瞄器的3d資料通常是稀疏的，其空間解析度是有限的。因此，僅依靠雷射距離資料的最新技術還不能達到基於相機的檢測系統的效能。在(表2)中，我們展示了基於lidar的基於kitti基準的目標，行人和騎自行車者檢測的最新技術。效能評估類似於基於影象的方法，通過投影三維邊界框進入影象平面。

wang＆posner（2015）vote3d[16]提出了一種有效的方法來將常用的2d滑動視窗檢測方法應用於3d資料。更具體地說，他們利用投票方案利用問題的稀疏性來搜尋所有可能的物件位置和方向。li等人（2016b）velofcn[15]利用完全卷積神經網路從距離資料中檢測車輛，從而改善這些結果。它們表示二維點圖中的資料，並使用單個二維cnn同時**物件置信度和邊界框。用於表示資料的編碼允許他們**車輛的完整3d邊界框。 engelcke等（2016）vote3deep[14]利用以特徵為中心的投票方案來實現利用點雲稀疏性的新型卷積層。此外，他們建議使用l 1正則化懲罰。

由於雷射掃瞄的密度有限，依靠單獨的雷射距離資料使得檢測任務具有挑戰性。因此，與基於影象的kitti資料集相比，現有的基於lidar的方法效能較差。chen等人（2016c）mv3d[6]將lidar雷射測距資料與rgb影象結合起來進行物體檢測。在他們的方法中，使用緊湊多檢視表示來編碼稀疏點雲，並且提案生成網路利用點雲的鳥瞰圖表示來生成3d建議框。最後，他們將來自多個檢視的區域特徵與深度融合方案結合起來，這種方法比其他基於lidar的方法優越得多，並且在kitti汽車基準測試中實現了最先進的效能（soa）。

KITTI2D及3D車輛檢測演算法

3D目標檢測之AM3D

機器視覺檢測由2D向3D邁進

2D轉換 3D轉換

KITTI2D及3D車輛檢測演算法

3D目標檢測之AM3D

機器視覺檢測由2D向3D邁進

2D轉換 3D轉換

相關推薦