深度學習CV中常用的資料集

資料集中為單通道，大小為28x28畫素

訓練集train-images.idx3-ubyte，檔案大小47040016b，47040016=60000x28x28+16，

測試集t10k-images.idx3-ubyte，檔案大小7840016b，7840016=10000x28x28+16，

其中資料集多出16位元組為：

magic number = 0x00000803

imagenumber = 0x0000ea60/60000 0x00002710/10000

imageheight = 28

imagewidth=28

標籤檔案中多出8個位元組為magic number = 0x00000801 和image_number

這個資料集基本上已經被用爛了，基本上每乙個學習的框架都會帶有含mnist資料集的example，基本上正確率都能達到98%+，適合初學者上手。

cifar-100資料集是cifar-10資料集的公升級版本，由60000張大小為32x32的三通道彩色影象組成，分為20大類；每個大類又包含5個小類，總共100個小類，每個小類包含600張影象，其中500張用於訓練，100張用於測試。

其中有個1000類的分類問題，訓練資料集有126萬張影象，驗證集5萬張，測試集10萬張，評價標準採用top-5錯誤率，即對一張影象進行5個類別的**，只要其中乙個和人工標註的類別相同則就算對了，否則算錯。

4coco資料集

coco（common objects in context）是乙個新的影象識別、分割和影象語義資料集，包含以下特點：

1）object segmentation

2）recognition in context

3）multiple objects per image

4）more than 300,000 images

5）more than 2 million instances

6）80 object categories

7）5 captions per image

8）keypoints on 100,000 people

這個資料集以scene understanding為目標，主要從複雜的日常場景中擷取，影象中的目標通過精確的segmentation進行位置的標定。影象包括91類目標，328,000影象和2,500,000個label。

一共有20g左右的和500m左右的標籤檔案

官網：

關於coco資料集的*****：

6openimage資料集

openimage，由谷歌實驗室出品，包含900 萬張的鏈結影象（基本來自 flickr），橫跨了大約 6000 個類別，這些標籤比 imagenet（1000 類）包含更多貼近實際生活的實體。這麼大量的影象資料，足夠保證從頭訓練乙個深度網路模型。

資料集的 github 位址為：

部落格對資料集進行了詳細的介紹：

7行人資料集：

mit資料集:

該資料庫為較早公開的行人資料庫，共924張行人（ppm格式，寬高為64x128），肩到腳的距離約80象素。該資料庫只含正面和背面兩個視角，無負樣本，未區分訓練集和測試集。dalal等採用「hog+svm」，在該資料庫上的檢測準確率接近100%。