資料採集 資料來源 Notebook平台

2022-08-11 08:51:10 字數 807 閱讀 8577

資料採集之資料來源:

(1)開放資料來源

(2)爬蟲爬取

(3)感測器

(4)日誌採集

開放資料來源:

單位資料來源

**美國人口調查局

提供人口資訊,地區分布和教育情況等美國公民相關的資料

歐盟歐盟開放資料平台,提供歐盟各機構的大量資料。

facebook

facebook官方提供的api,用於查詢使用者公開的海量資訊

amazon

亞馬遜網路服務開放資料集

google

谷歌金融,收錄了40年以來的**資料,實時更新

北京大學

北京大學開放研究資料平台

imagenet

目前世界上影象識別最大的資料庫,包括近1500萬張影象

資料集說明

**movielens

電影推薦系統資料集,包括多個大小的版本

netflix prize dataset

1億部電影評分,netflix懸賞100萬美金的知名資料集

letor

資訊檢索資料集

mslr

微軟發布的learning to rank資料集

yahoo ltr

雅虎發布的ltr比賽資料集

online notebook使用(免費提供gpu):

天池notebook

google colab

採集資料小總結

採集過程遇到的問題 1.十分鐘內訪問資料頁面,需要輸入驗證碼 2.每天ip限定訪問五十個以內,用完則明天再來 b 剛開始的解決辦法 b 去抓取網上提供的 ip 埠,然後 訪問 問題 ip好多不能用,需要 ip個數較多,然後還要根據採集 的規則設定,比如十分鐘內每個 訪問規則數量 1,之後再次訪問.b...

08 資料採集 如何自動化採集資料?

如何使用爬蟲做抓取 1 python爬蟲,大致經過三個過程 使用requests爬取內容 使用xpath解析內容 使用pandas儲存資料。2 抓取工具 火車採集客 八爪魚 集搜客 如何使用日誌採集工具 日誌採集通過分析使用者訪問情況,提公升系統效能,從而提高系統承載量。日誌採集分為兩種 1 通過w...

SpringBoot學習 資料來源(一)單資料來源

springboot2.1.9預設支援三種資料來源 connection pool com.zaxxer.hikari.hikaridatasource org.apache.tomcat.jdbc.pool.datasource org.apache.commons.dbcp2.basicdata...