KITTI2D及3D車輛檢測演算法

2021-08-17 08:55:03 字數 3093 閱讀 7112

表1 基於視覺資訊的kitti資料集車輛檢測榜
method

moderate

easy

hard

runtime

subcnn[1]

89.04 %

90.81 %

79.27 %

2 s / gpu

ms-cnn[2]

89.02 %

90.03 %

76.11 %

0.4 s / gpu

sdp+rpn[3]

88.85 %

90.14 %

78.38 %

0.4 s / gpu

mono3d[4]

88.66 %

92.33 %

78.96 %

4.2 s / gpu

3dop[5]

88.64 %

93.04 %

79.10 %

3s / gpu

mv3d (lidar+mono)[6]

87.67 %

89.11 %

79.54 %

0.45 s / gpu

sdp+crc[7]

83.53 %

90.33 %

60.70 %

0.6 s / gpu

faster r-cnn[8]

81.84 %

86.71 %

65.38 %

2 s / gpu

aog[9]

75.94 %

84.80 %

60.70 %

3 s / 4 cores

3dvp[10]

75.77 %

87.46 %

65.38 %

40 s / 8 cores

lsvm-mdpm[11]

56.48 %

68.02 %

44.18 %

10 s / 4 cores

acf[12]

54.74 %

55.89 %

42.98 %

0.2 s / 1 core

注:基於目標大小/遮擋/截斷水平的不同難度等級的ap值。數字越高表示綜合性能越好

由於kitti資料集包含許多不同尺度的目標和經常嚴重遮擋或截斷的小目標。 使用基於區域的網路很難檢測到這些物件。 因此,已經提出了幾種獲得更好的目標建議的方法(ms-cnn[2]等)。

使用從立體相機對估計的3d資訊有更好的幫助。受此啟發,chen等人mono3d[4]提出單目影象的類特定3d物件建議,他們對3d候選框使用3d點雲特徵對它們進行評分。最後,利用上下文資訊和使用多工損失的cnn共同回歸物件的座標和方向。

cai等人(2016)ms-cnn[2]提出了一種由提案子網路和檢測子網路組成的多尺度cnn。生成建議框網路在多個輸出層執行檢測,並將這些互補的特定尺寸的檢測器組合起來以產生強大的多尺度物件檢測器(soa)。

表2 基於lidar資訊的kitti資料集車輛檢測榜
method

moderate

easy

hard

runtime

mv3d (lidar + mono)[6]

87.67 %

89.11 %

79.54 %

0.45 s / gpu

mv3d (lidar)[6]

79.24 %

87.00 %

78.16 %

0.3 s / gpu

mv-rgbd-rf[13]

69.92 %

76.40 %

57.47 %

4 s / 4 cores

vote3deep[14]

68.24 %

76.79 %

63.23 %

1.5 s / 4 cores

velofcn[15]

53.59 %

71.06 %

46.92 %

1 s / gpu

vote3d[16]

47.99 %

56.80 %

42.57 %

0.5 s / 4 cores

csor[17]

26.13 %

34.79 %

22.69 %

3.5 s / 4 cores

kitti資料集提供同步相機和lidar資料,並允許在相同的資料上比較基於影象和基於lidar的方法。與相機相比,lidar雷射距離感測器直接提供準確的3d資訊,從而簡化了候選物件的提取,並可為分類任務提供有用的3d形狀資訊。然而,來自雷射掃瞄器的3d資料通常是稀疏的,其空間解析度是有限的。 因此,僅依靠雷射距離資料的最新技術還不能達到基於相機的檢測系統的效能。 在(表2)中,我們展示了基於lidar的基於kitti基準的目標,行人和騎自行車者檢測的最新技術。 效能評估類似於基於影象的方法,通過投影三維邊界框進入影象平面。

wang&posner(2015)vote3d[16]提出了一種有效的方法來將常用的2d滑動視窗檢測方法應用於3d資料。 更具體地說,他們利用投票方案利用問題的稀疏性來搜尋所有可能的物件位置和方向。li等人(2016b)velofcn[15]利用完全卷積神經網路從距離資料中檢測車輛,從而改善這些結果。它們表示二維點圖中的資料,並使用單個二維cnn同時**物件置信度和邊界框。用於表示資料的編碼允許他們**車輛的完整3d邊界框。 engelcke等 (2016)vote3deep[14]利用以特徵為中心的投票方案來實現利用點雲稀疏性的新型卷積層。 此外,他們建議使用l 1正則化懲罰。

由於雷射掃瞄的密度有限,依靠單獨的雷射距離資料使得檢測任務具有挑戰性。 因此,與基於影象的kitti資料集相比,現有的基於lidar的方法效能較差。chen等人(2016c)mv3d[6]將lidar雷射測距資料與rgb影象結合起來進行物體檢測。在他們的方法中,使用緊湊多檢視表示來編碼稀疏點雲,並且提案生成網路利用點雲的鳥瞰圖表示來生成3d建議框。最後,他們將來自多個檢視的區域特徵與深度融合方案結合起來,這種方法比其他基於lidar的方法優越得多,並且在kitti汽車基準測試中實現了最先進的效能(soa)。

3D目標檢測之AM3D

accurate monocular object detection via color embedded 3d reconstructionfor autonomous driving 參考戳這裡 先用2d目標檢測網路和單目深度估計網路分別檢測2d box和深度資訊,然後將深度資訊轉化為三維點雲...

機器視覺檢測由2D向3D邁進

現在,機器視覺檢測整合商發現越來越難以通過普通的2d機器視覺檢測系統來增值。2d機器視覺檢測距今已發展了30餘年,技術較為成熟,在自動化領域和產品質量控制過程中被廣泛的使用,而現在由於對精確度的要求越來越高,3d機器視覺檢測變得更為受歡迎,3d測量能夠產生2d系統不能產生的形狀資訊,因此其使用範圍更...

2D轉換 3D轉換

轉換是使元素改變形狀 尺寸和位置的一種效果。能夠對元素進行移動 縮放 轉動 拉長或拉伸。2d轉換 瀏覽器相容 1 internet explorer 10 firefox 以及 opera 支援 transform 屬性。2 chrome 和 safari 需要字首 webkit 3 interne...