python爬取微博熱搜

2022-09-01 08:15:11 字數 2021 閱讀 3587

1

import

requests

2importre3

import

bs44

importos5

import

datetime

67 url="

"8 headers=

9try

:10 r=requests.get(url,headers=headers)

11except:12

print("

出現了不可預期的錯誤")

1314 hotpattern=re.compile('

([\s,\s]*?)')

15 hotlist=re.findall(hotpattern,r.text)

16if hotlist==:

17print("

匹配模式可能出了問題")

18else:19

#接下來開始提取熱搜資料

20 datalist=

21for hotpoint in

hotlist:

22 data=

23 hotsoup=bs4.beautifulsoup(hotpoint,'

html.parser')

24#獲取排名25#

print(hotsoup.tr.contents[1])

26 rank=hotsoup.tr.contents[1].string

27if rank==none:速公升"

)29else:30

3132

#獲取熱搜名稱33#

print(hotsoup.tr.contents[3])

34 name=hotsoup.tr.contents[3].a.string

3536

373839#

建立資料夾

40 cwd=os.getcwd()

41 time=datetime.datetime.now().strftime(r'

%y\%m

') #以【年/月/】作為目錄

42 day=datetime.datetime.now().strftime(r'

\%d'

) #以【日.txt】作為檔名

設定基本屬性

設定觸發器

設定操作(注意要設定起始位置為檔案所在目錄)

設定條件

爬取新浪微博熱搜榜

一 主題式網路爬蟲設計方案 15分 3.主題式網路爬蟲設計方案概述 包括實現思路與技術難點 本案例使用requests庫獲取網頁資料,使用beautifulsoup庫解析頁面內容,再使用pandas庫把爬取的資料輸出,並對資料視覺化,最後進行小結 技術難點 爬取有用的資料,將有礙分析的資料剔除,回歸...

Python爬取微博熱搜榜,將資料存入資料庫

這裡是用來爬取微博熱搜榜的資料,網頁位址為開啟網頁並按下f12進入開發者模式,找到.裡的內容,如圖所示 href後面的內容即為對應的中文編碼的原始碼,其中很多25應該是干擾字元,後面刪掉解析就可以發現是微博熱搜的標題。我數了下,一共有27個,剛好第乙個標題為 比伯願為賽琳娜捐腎 九個字,乙個漢字佔三...

小鹽巴學習筆記 用Python爬取微博熱搜

前言 一 爬蟲分析 二 完整 總結今天爬取的方式還是正則,但寫法略有不同,量更少 進入後滑鼠右鍵檢視原始碼,看能不能直接看到資料 呀可以直接看到,省事,直接正則一套帶走 頭部,偽裝成瀏覽器訪問 headers response requests.get url url,headers headers...