正則解析 分頁爬取

2022-08-17 07:27:21 字數 952 閱讀 7786

#!/usr/bin/python

import requests

import re

import os

if __name__ == "__main__":

headers =

#建立乙個資料夾,儲存所有

if not os.path.exists('./qiutulibs2'):

os.mkdir('./qiutulibs2')

#設定乙個通用的url模板

url = ''

# pagenum = 2

for pagenum in range(1,13):

#對應頁碼的url

new_url= format(url%pagenum)

#使用通用爬蟲對url對應的一整張頁面進行爬取

page_text = requests.get(url=new_url,headers=headers).text

#使用聚焦爬蟲將頁面中的所有的糗圖進行解析/爬取

ex = '.*?

' img_src_list = re.findall(ex,page_text,re.s)

for src in img_src_list:

#拼接出乙個完整的url

#請求到了的二進位制資料

img_data = requests.get(url=src,headers=headers).content

#生成名稱

img_name = src.split('/')[-1]

#儲存的路徑

imgpath = './qiutulibs/'+img_name

with open(imgpath,'wb') as fp:

fp.write(img_data)

中國災害預警爬取解析

有獲取災害資訊提醒的需求,但是發現並沒有開發的api 已有的api都需要付錢。天氣預報api,可以看知乎的這邊文章。網上的天氣 api 哪乙個更加可靠?裡面的普通的天氣預報部分免費,但是災害預警的api都是需要收費的。於是自己去摸索了。最後通過發f12發現了中國天氣網中可用的請求 順便寫了下解析使用...

利用正則爬取貓眼電影

爬取貓眼電影 import json import requests from requests.exceptions import requestexception import redef get one page url 獲取乙個頁面的資訊 try proxies get random ip ...

爬取動態分頁資料案例

爬取東方財富 的財經新聞資料 1.爬取頁面中的標題和對應的內容 標題 內容 2.進行分頁操作,爬取當前頁面所有頁碼對應的標題和內容資料 3.不可以使用selenium 4.進行任意形式的持久化儲存 通過對 的分析發現翻頁時,有ajax資料報分析資料報的url發現,翻頁改變url中的引數,共20頁 u...