機器學習與深度學習常用資料集

2021-09-02 17:41:12 字數 2488 閱讀 1954

包括影象分類領域、自然語言處理領域、目標檢測定位和coco資料集。

經典的小型(28x28 畫素)灰度手寫數字資料集,開發於 20 世紀 90 年代,主要用於測試當時最複雜的模型;到了今日,mnist 資料集更多被視作深度學習的基礎教材。fast.ai 版本的資料集捨棄了原始的特殊二進位制格式,轉而採用標準的 png 格式,以便在目前大多數**庫中作為正常的工作流使用;如果您只想使用與原始同樣的單輸入通道,只需在通道軸中選取單個切片即可。

引文:10 個類別,多達 60000 張的 32x32 畫素彩色影象(50000 張訓練影象和 10000 張測試影象),平均每種類別擁有 6000 張影象。廣泛用於測試新演算法的效能。fast.ai 版本的資料集捨棄了原始的特殊二進位制格式,轉而採用標準的 png 格式,以便在目前大多數**庫中作為正常的工作流使用。

引文:與 cifar-10 類似,區別在於 cifar-100 擁有 100 種類別,每個類別包含 600 張影象(500 張訓練影象和 100 張測試影象),然後這 100 個類別又被劃分為 20 個超類。因此,資料集裡的每張影象自帶乙個「精細」標籤(所屬的類)和乙個「粗略」標籤(所屬的超類)。

引文:包含 200 種鳥類(主要為北美洲鳥類)**的影象資料集,可用於影象識別工作。分類數量:200;數量:11,788;平均每張含有的標註數量:15 個區域性位置,312 個二進位制屬性,1 個邊框框。

引文:包含 101 種物品類別的影象資料集,平均每個類別擁有 40—800 張影象,其中很大一部分類別的影象數量固為 50 張左右。每張影象的大小約為 300 x 200 畫素。本資料集也可以用於目標檢測定位。

引文:包含 37 種寵物類別的影象資料集,每個類別約有 200 張影象。這些影象在比例、姿勢以及光照方面有著豐富的變化。本資料集也可以用於目標檢測定位。

引文:包含 102 種花類的影象資料集(主要是一些英國常見的花類),每個類別包含 40—258 張影象。這些影象在比例、姿勢以及光照方面有著豐富的變化。

引文:包含 101 種食品類別的影象資料集,共有 101,000 張影象,平均每個類別擁有 250 張測試影象和 750 張訓練影象。訓練影象未經過資料清洗。所有影象都已經重新進行了尺寸縮放,最大邊長達到了 512 畫素。

引文:包含 196 種汽車類別的影象資料集,共有 16,185 張影象,分別為 8,144 張訓練影象和 8,041 張測試影象,每個類別的影象型別比例基本上都是五五開。本資料集的類別主要基於汽車的牌子、車型以及年份進行劃分。

引文:引文:

超過 1 億個語句的資料合集,全部從維基百科的 good 與 featured 文章中提煉出來。廣泛用於語言建模,當中包括 fastai 庫和 ulmfit 演算法中經常用到的預訓練模型。

引文:wikitext-103 的子集,主要用於測試小型資料集的語言模型訓練效果。

引文:用於訓練翻譯模型的法語/英語平行文字,擁有超過 2000 萬句法語與英語句子。本資料集由 chris callison-burch 建立,他抓取了上百萬個網頁,然後通過一組簡單的啟發式演算法將法語**轉換為英文**,並預設這些文件之間互為譯文。

引文:496,835 條來自 ag 新聞語料庫 4 大類別超過 2000 個新聞源的新聞文章,資料集僅僅援用了標題和描述字段。每個類別分別擁有 30,000 個訓練樣本及 1900 個測試樣本。

引文:引文:

引文:來自 dbpedia 2014 的 14 個不重疊的分類的 40,000 個訓練樣本和 5,000 個測試樣本。

引文:2,909,551 篇來自 sogouca 和 sogoucs 新聞語料庫 5 個類別的新聞文章。每個類別分別包含 90,000 個訓練樣本和 12,000 個測試樣本。這些漢字都已經轉換成拼音。

引文:來自雅虎 yahoo! answers comprehensive questions and answers1.0 資料集的 10 個主要分類資料。每個類別分別包含 140,000 個訓練樣本和 5,000 個測試樣本。

引文:來自 2015 年 yelp dataset challenge 資料集的 1,569,264 個樣本。每個評級分別包含 130,000 個訓練樣本和 10,000 個 測試樣本。

引文:來自 2015 年 yelp dataset challenge 資料集的 1,569,264 個樣本。該子集中的不同極性分別包含 280,000 個訓練樣本和 19,000 個測試樣本。

引文:700 張包含畫素級別語義分割的影象分割資料集,每張影象都經過第二個人的檢查和確認來確保資料的準確性。

引文:用於類識別的標準影象資料集——這裡同時提供了 2007 與 2012 版本。2012 年的版本擁有 20 個類別。訓練資料的 11,530 張影象中包含了 27,450 個 roi 注釋物件和 6,929 個目標分割資料。

引文:

fast.ai 建立的子集資料集:

訓練影象資料集:

驗證影象資料集:

測試影象資料集:

未經標註的影象資料集:

測試影象資料集詳情:

未經標註的影象資料集詳情:

訓練/驗證注釋集:

主體訓練/驗證注釋集:

全景訓練/驗證注釋集:

資料探勘 機器學習 深度學習常用資料集

大的資料收錄 即被交付給的原始資料集 0.2.1 離散和連續型普通資料集 0.2.2 影象資料集 影象分類 目標檢測 目標跟蹤 語義分割 影象融合 超解析度 flyingchairs 22872張影象對,2d對應的3d影象,標註ground truth為光流。celeba202599張各個尺寸的,此...

深度學習視覺常用資料集

1.深度學習資料集收集 收集大量的各深度學習相關的資料集,但並不是所有開源的資料集都能在上面找到相關資訊。2 tiny images dataset 包含8000萬的32 32影象,cifar 10和cifar 100便是從中挑選的。3 cophir 雅虎發布的超大flickr資料集,包含1億多張。...

機器學習與深度學習

機器學習簡介 機器學習是什麼 無序資料轉化為價值的方法 機器學習價值 從資料中抽取規律,並用於 未來。機器學習應用舉例 分類問題 影象識別,垃圾郵件識別 回歸問題 股價 房價 排序問題 點選率預估,推薦 生成問題 影象生成,影象風格轉換,影象文字描述生成。機器學習的應用流程 線下訓練到線上服務 機器...