公開資料集

2021-10-11 14:20:25 字數 1585 閱讀 7085

海量資料(又稱大資料)已經成為各大網際網路企業面臨的最大問題,如何處理海量資料,提供更好的解決方案,是目前相當熱門的乙個話題。類似mapreduce、 hadoop等架構的普遍推廣,大家都在構建自己的大資料處理,大資料分析平台。 相應之下,目前對於海量資料處理人才的需求也在不斷增多,此類人才可謂炙手可熱!越來越多的開發者把目光轉移到海量資料的處理上。但是不是所有人都能真正接觸到,或者有機會去處理海量資料的,所以就需要一些公開的海量資料集來研究。 在quora上有人就問到,如何獲取海量資料集。此問題得到了很多人的關注。具體可以看看回答,資料集的種類多種多樣,有化學分析,基因遺傳等等,從中你肯定能得到自己想要個資料集。

where can i get large datasets open to the public?

首先說說幾個收集資料集的**:

1、public data sets on amazon web services (aws)

amazon從2023年開始就為開發者提供幾十tb的開發資料。

2、yahoo! webscope

3、konect is a collection of network datasets

4、stanford large network dataset collection

再就是說說幾個跟網際網路有關的資料集:

1、dataset for "statistics and social network of youtube videos"

2、1998 world cup web site access logs

這個是2023年世界盃期間的資料集。從1998/04/26 到 1998/07/26 的92天中,發生了 1,352,804,107次請求。

3、page view statistics for wikimedia projects

4、aol search query logs - rp

5、livedoor gourmet

海量影象資料集:

1、imagenet

包含1400萬的影象。

2、tiny images dataset

包含8000萬的32x32影象。

3、 mirflickr1m

flickr中的100萬的影象集。

4、 cophir

flickr中的1億600萬的影象

5、sbu captioned photo dataset

flickr中的100萬的影象集。

6、large-scale image annotation using visual synset(iccv 2011)

包含2億影象

7、nus-wide

flickr中的27萬的影象集。

8、sun dataset

包含13萬的影象

9、msra-mm

10、trecvid

在實際工作中,我們可以使用業務資料進行機器學習開發,但是在學習過程中, 沒有業務資料,此時可以使用公開的資料集進行開發,常用資料集如下:

• •

• •

• •

自然語言處理資料集和公開資料集

資料庫 自然語言處理的核心步驟 參考1 自然語言處理的核心步驟 參考2 自然語言處理的核心步驟 參考3 資料集 資料集合 tensorflow實現的深度nlp模型集合 github位址,100 jupter notebook實現 公開語料庫 ldc語料庫 全世界自然語言處理科學家共用的資料庫 多種演...

三維重建和VSLAM相關的公開資料集大全

測試乙個slam的演算法效能,需要測試slam演算法定位精度 時間開銷,記憶體開銷等等。而時間開銷和記憶體開銷一般比較好操作,但是定位精度一般很難評估,因為你需要真實軌跡,但是這個很難獲取,需要一些比較昂貴的裝置,因此,一些實驗室專門做了公開資料集和評估工具,可以通過這些公開資料集和評估工具對比一些...

西瓜資料集3 0 西瓜資料集

編號,色澤,根蒂,敲聲,紋理,臍部,觸感,好瓜 1,青綠,蜷縮,濁響,清晰,凹陷,硬滑,是 2,烏黑,蜷縮,沉悶,清晰,凹陷,硬滑,是 3,烏黑,蜷縮,濁響,清晰,凹陷,硬滑,是 4,青綠,蜷縮,沉悶,清晰,凹陷,硬滑,是 5,淺白,蜷縮,濁響,清晰,凹陷,硬滑,是 6,青綠,稍蜷,濁響,清晰,稍凹...