實時爬取疫情動態變化並進行視覺化展示

2022-06-06 11:51:08 字數 1339 閱讀 7184

(一)實時爬取疫情的動態變化

上次的中國的疫情視覺化來自已有的資料庫表裡的資料,不是最新的,因此這次我們要做的就是實時的爬取疫情資訊

三步走:

第一步:獲取網頁

通過requests的headers偽裝網頁訪問,獲取網頁**

第二步:提取我們想要的資料

發現在該網頁裡的script裡id="getareastat"裡面有我們想要的資料,然後我們通過beautifulsoup對其進行爬取,爬取到後轉化為字串,通過字元轉擷取到我們想到的資料,將他們轉化成json格式,然後建立兩個列表,乙個儲存省份,另乙個儲存城市資料。

soup = beautifulsoup(content, 'html.parser')

lista = soup.find_all(name='script',attrs=)

account = str(lista)

messages = account[52:-21]

messages_json = json.loads(messages)

valueslist =

citylist =

資料的儲存

第三步:儲存資料到mysql

首先在表中查詢當前表中一共有多少條資料,然後再進行插入,這樣不會出現id重複。這樣每天都會更新資料庫裡的資訊並且還會儲存昨天的資訊

這樣在進行視覺化時資料量將會更多,更加具有可比性。

總的**:

日期開始時間

結束時間

中斷時間

淨時間活動

備註3/10

15:35

16:00025

安裝pycharm,配置環境

喝水3/10

16:10

17:00050

分析網頁資料,學習爬蟲知識

3/10

17:05

18:20

1560

學習連線資料庫,將資料分析並匯入到mysql裡

喝水,上廁所

3/10

18:30

18:45015

將資料庫裡的資料與之間的web聯絡,構成實時視覺化資料顯示

缺陷記錄日誌

日期編號

型別引入階段

排除階段

修復階段

修復缺陷

3/10

1邏輯問題

編碼執行

10分鐘

描述:匯入到資料庫表裡的id號碼重複

3/10

2邏輯問題

編碼執行

5min

描述:建立資料庫與web視覺化時,資料全部匯入進去,導致柱狀圖容不下顯示出錯

總共用時:150分鐘,**量80行左右

python 爬取疫情資料並進行視覺化

課題 爬取疫情資料 進行視覺化 第一步 爬蟲爬取疫情資料 第二步 實現資料的視覺化 import time import json import requests import pandas as pd url r int time.time 1000 html requests.get url h...

使用Python進行疫情資料爬取

為了使用python學習爬取疫情資料,提前學習了python中的語法和各種儲存結構 dirt 若沒有這些基礎很難看懂python 更別提寫了 放入要爬的url url 設定header做乙個防爬機制 獲取response的json response requests.get url,headers ...

爬拉勾網並進行視覺化分析

爬取動態網頁 拉勾網 拉勾網通過ajax後台資料動態載入。爬取 爬蟲 崗位的關鍵字,並存入到本地mongodb中,通過pandas讀取爬取的崗位資料視覺化展示。加入了反爬cookies,需攜帶cookies才返回需要的資料,需登入後獲取cookies傳送post請求。import requests ...