資料集處理 1 相關資料集介紹

資料描述

kitti包含市區、鄉村和高速公路等場景採集的真實影象資料，每張影象中最多達15輛車和30個行人，還有各種程度的遮擋與截斷。整個資料集由389對立體影象和光流圖，39.2 km視覺測距序列以及超過200k 3d標註物體的影象組成，以10hz的頻率取樣及同步。總體上看，原始資料集被分類為』road』, 』city』, 』residential』, 』campus』和』person』。對於3d物體檢測，label細分為car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc組成。

資料組織形式

data_object_image_2
testing
image_2
[7518個]
training
image_2
[7481個]
------------------------------
training
label_2
[7481個txt檔案]

kitti標註資訊說明

type bbox car 0.00 0 -1.67 642.24 178.50 680.14 208.68 1.38 1.49 3.32 2.41 1.66 34.98 -1.60 car 0.00 0 -1.75 685.77 178.12 767.02 235.21 1.50 1.62 3.89 3.27 1.67 21.18 -1.60

換成voc格式

資料介紹[只有車輛沒有行人]

1，車輛檢測和跟蹤的大規模資料集，可以作為 kitti 的補充。

2，資料集主要拍攝於北京和天津的道路過街天橋（京津冀場景有福了），並手動標註了 8250 個車輛和 121萬目標物件外框。

3，附帶的 toolkit 統一了資料介面，裡面包含了幾種 state-of-the-art 的檢測和跟蹤方法（大家可以進行測試比較）。

資料集：detrac-train-images (5.22gb, 60 sequences) + detrac-test-images (3.94gb, 40 sequences)

檢測：detrac-train-detections (dpm, acf, r-cnn, compact) + detrac-test-detections (dpm, acf, r-cnn, compact)

資料介紹

一般照著它的readme文件來做就ok了，如果有用python3來呼叫它的api的時候，需要先在python3下已經安裝過cython(方法:pip3 install cython)，然後修改makeconfig裡的檔案，將python修改為python3，然後再make就好了。

基本的json結構體型別

object instances（目標例項）、object keypoints（目標上的關鍵點）、image captions（看圖說話）這3種型別共享這些基本型別：info、image、license。

而annotation型別則呈現出了多型：

info license image

1，info型別，比如乙個info型別的例項：

"info":,

2，images是包含多個image例項的陣列，對於乙個image型別的例項：

3，licenses是包含多個license例項的陣列，對於乙個license型別的例項：

object instance 型別的標註格式1，整體json檔案格式

比如上圖中的instances_train2017.json、instances_val2017.json這兩個檔案就是這種格式。

object instance這種格式的檔案從頭至尾按照順序分為以下段落：

2，annotations欄位annotations欄位是包含多個annotation例項的乙個陣列，annotation型別本身又包含了一系列的字段，如這個目標的category id和segmentation mask。segmentation格式取決於這個例項是乙個單個的物件（即iscrowd=0，將使用polygons格式）還是一組物件（即iscrowd=1，將使用rle格式）。如下所示：

annotation

注意，單個的物件（iscrowd=0)可能需要多個polygon來表示，比如這個物件在影象中被擋住了。而iscrowd=1時（將標註一組物件，比如一群人）的segmentation使用的就是rle格式。

注意啊，只要是iscrowd=0那麼segmentation就是polygon格式；只要iscrowd=1那麼segmentation就是rle格式。另外，每個物件（不管是iscrowd=0還是iscrowd=1）都會有乙個矩形框bbox ，矩形框左上角的座標和矩形框的長寬會以陣列的形式提供，陣列第乙個元素就是左上角的橫座標值。

area是area of encoded masks，是標註區域的面積。如果是矩形框，那就是高乘寬；如果是polygon或者rle，那就複雜點。

最後，annotation結構中的categories欄位儲存的是當前物件所屬的category的id，以及所屬的supercategory的name。

下面是從instances_val2017.json檔案中摘出的乙個annotation的例項，這裡的segmentation就是polygon格式：

3，categories欄位categories是乙個包含多個category例項的陣列，而category結構體描述如下：

從instances_val2017.json檔案中摘出的2個category例項如下所示：

,

至2023年的時候，一共有80個category。

雖然比imagenet和sun類別少，但是每一類的影象多，這有利於獲得更多的每類中位於某種特定場景的能力，對比pascal voc，其有更多類和影象。2023年版本：82,783 training, 40,504 validation, and 40,775 testing images，有270k的segmented people和886k的segmented object。

和voc相比,coco資料集上小目標多,單幅目標多,物體大多非中心分布,更符合日常環境,所以coco檢測難度更大.

voc資料集:(包含5個資料夾)

+voctrainval_06-nov-2007====[5101張]
+vocdevkit
+voc2007
+annotations
+imagesets
+jpegimages
+segmentationclass
+segmentationobject
+voctest_06-nov-2007====[4952張]
+vocdevkit
+voc2007
+annotations
+imagesets
+jpegimages
+segmentationclass
+segmentationobject

voc_all合起來[26332]

無約束自然場景人臉識別資料集，該資料集由13000多張全世界知名人士網際網路自然場景不同朝向、表情和光照環境人臉組成，共有5000多人，其中有1680人有2張或2張以上人臉。每張人臉都有其唯一的姓名id和序號加以區分。

lfw資料集主要測試人臉識別的準確率，該資料庫從中隨機選擇了6000對人臉組成了人臉辨識對，其中3000對屬於同乙個人2張人臉**，3000對屬於不同的人每人1張人臉**。測試過程lfw給出一對**，詢問測試中的系統兩張**是不是同乙個人，系統給出「是」或「否」的答案。通過6000對人臉測試結果的系統答案與真實答案的比值可以得到人臉識別準確率。

這個集合被廣泛應用於評價 face verification演算法的效能。

1，13233 images

2，5749 people

3，1680 people with two or more images

位置格式：「lfw/name/name_***x.jpg」

資料集處理 1 相關資料集介紹

webpack4 0 相關外掛程式集

資料集處理資料增強1

資料探勘學習之路 1 相關概念

資料集處理 1 相關資料集介紹

webpack4 0 相關外掛程式集

資料集處理 資料增強1

資料探勘學習之路 1 相關概念

相關推薦

資料集處理資料增強1