網路上最大的機器學習資料集列表

2021-10-10 21:27:56 字數 386 閱讀 2114

大資料文摘出品

有乙個機器學習專案的想法,興致衝衝地準備開始,才發現沒有合適的資料集來訓練模型。

你有沒有過這樣的經歷?

其實隨著機器學習的流行和發展,每年很多高校、企業都在做一些專案並公開他們的資料集,但是儘管每年發布的大量高質量資料集越來越多,而且其中大部分都發布在各自的**上,因此我們很難找到它們。

左邊可以按照分類尋找資料集,有計算機視覺(cv)、自然語言處理(nlp)、自動駕駛(self-driving)等等,右邊是資料集的資訊,包括名稱、年份、簡介和許可情況(公開的、非商業的等等),還有相關的**鏈結。

除了這個資料集,他還做了很多有意思的小專案,比如chrome瀏覽器上的mapillary擴充套件程式,安裝之後每次開啟新標籤頁時都會顯示來自mapillary的隨機精美。

機器學習資料集

ucl機器學習知識庫 包括近300個不同大小和型別的資料集,可用於分類 回歸 聚類和推薦系統任務。資料集列表位於 amazon aws公開資料集 包含的通常是大型資料集,可通過amazon s3訪問。這些資料集包括人類基因組專案 common crawl網頁語料庫 維基百科資料和google boo...

機器學習資料集 Dataset 彙總

cifar 10包含10個類別,50,000個訓練影象,彩色影象大小 32x32,10,000個測試影象。類別 airplane,automobile,bird,cat,deer,dog,frog,horse,ship,truck 資料格式 python版本 matlab版本 二進位制版本 cifa...

機器學習iris資料集匯入

iris資料集在模式識別研究領域應該是最知名的資料集了,有很多文章都用到這個資料集。這個資料集裡一共包括150行記錄,其中前四列為花萼長度,花萼寬度,花瓣長度,花瓣寬度等4個用於識別鳶尾花的屬性,第5列為鳶尾花的類別 包括setosa,versicolour,virginica三類 也即通過判定花萼...