深度學習CV中常用的資料集

2021-08-14 14:26:54 字數 1833 閱讀 8016

資料集中為單通道,大小為28x28畫素

訓練集train-images.idx3-ubyte,檔案大小47040016b,47040016=60000x28x28+16,

測試集t10k-images.idx3-ubyte,檔案大小7840016b,7840016=10000x28x28+16,

其中資料集多出16位元組為:

magic number = 0x00000803

imagenumber = 0x0000ea60/60000 0x00002710/10000

imageheight = 28

imagewidth=28

標籤檔案中多出8個位元組為magic number = 0x00000801 和image_number

這個資料集基本上已經被用爛了,基本上每乙個學習的框架都會帶有含mnist資料集的example,基本上正確率都能達到98%+,適合初學者上手。

cifar-100資料集是cifar-10資料集的公升級版本,由60000張大小為32x32的三通道彩色影象組成,分為20大類;每個大類又包含5個小類,總共100個小類,每個小類包含600張影象,其中500張用於訓練,100張用於測試。

其中有個1000類的分類問題,訓練資料集有126萬張影象,驗證集5萬張,測試集10萬張,評價標準採用top-5錯誤率,即對一張影象進行5個類別的**,只要其中乙個和人工標註的類別相同則就算對了,否則算錯。

4coco資料集

coco(common objects in context)是乙個新的影象識別、分割和影象語義資料集,包含以下特點:

1)object segmentation

2)recognition in context

3)multiple objects per image

4)more than 300,000 images

5)more than 2 million instances

6)80 object categories

7)5 captions per image

8)keypoints on 100,000 people

這個資料集以scene understanding為目標,主要從複雜的日常場景中擷取,影象中的目標通過精確的segmentation進行位置的標定。影象包括91類目標,328,000影象和2,500,000個label。

一共有20g左右的和500m左右的標籤檔案

官網:

關於coco資料集的*****:

6openimage資料集

openimage,由谷歌實驗室出品,包含900 萬張的鏈結影象(基本來自 flickr),橫跨了大約 6000 個類別,這些標籤比 imagenet(1000 類) 包含更多貼近實際生活的實體。這麼大量的影象資料,足夠保證從頭訓練乙個深度網路模型。

資料集的 github 位址為:

部落格對資料集進行了詳細的介紹:

7行人資料集:

mit資料集:

該資料庫為較早公開的行人資料庫,共924張行人(ppm格式,寬高為64x128),肩到腳的距離約80象素。該資料庫只含正面和背面兩個視角,無負樣本,未區分訓練集和測試集。dalal等採用「hog+svm」,在該資料庫上的檢測準確率接近100%。

深度學習視覺常用資料集

1.深度學習資料集收集 收集大量的各深度學習相關的資料集,但並不是所有開源的資料集都能在上面找到相關資訊。2 tiny images dataset 包含8000萬的32 32影象,cifar 10和cifar 100便是從中挑選的。3 cophir 雅虎發布的超大flickr資料集,包含1億多張。...

機器學習與深度學習常用資料集

包括影象分類領域 自然語言處理領域 目標檢測定位和coco資料集。經典的小型 28x28 畫素 灰度手寫數字資料集,開發於 20 世紀 90 年代,主要用於測試當時最複雜的模型 到了今日,mnist 資料集更多被視作深度學習的基礎教材。fast.ai 版本的資料集捨棄了原始的特殊二進位制格式,轉而採...

機器學習中常用的資料集處理方法

1.離散值的處理 因為離散值的差值是沒有實際意義的。比如如果用0,1,2代表紅黃藍,1 0的差值代表黃 紅,是沒有意義的。因此,我們往往會把擁有d個取值的離散值變為d個取值為0,1的離散值或者將其對映為多維向量。2.屬性歸一化 歸一化的目標是把各位屬性的取值範圍放縮到差不多的區間,例如 0.5,0....