爬取動態分頁資料案例

2022-04-28 14:27:15 字數 949 閱讀 5296

爬取東方財富**的財經新聞資料

1.爬取頁面中的標題和對應的內容:【標題】內容

2.進行分頁操作,爬取當前頁面所有頁碼對應的標題和內容資料

3.不可以使用selenium

4.進行任意形式的持久化儲存

通過對**的分析發現翻頁時,有ajax資料報分析資料報的url發現,翻頁改變url中的引數,共20頁

#

url—

import

requests

import

json

import

reheaders =

#通過對**的分析發現翻頁時,有ajax資料報分析資料報的url發現,翻頁改變url中的引數,共20頁

url = "

"for i in range(1,21):

url2 =url.format(i)

page_text = requests.get(url=url2, headers=headers).text

page_str = re.findall('\'

,page_text)[0]

page_dic =json.loads(page_str)

page_list = page_dic["

liveslist"]

content_list =

for dic in

page_list:

content = dic["

digest"]

#分頁儲存

with open(f"

./第頁新聞

","w

",encoding='

utf-8

') as fp:

fp.write('\n

'.join(content_list))

print(f"

第頁新聞儲存成功

")

爬取網頁資料 插敘 爬取網頁資料,給寶寶取個好名字

前言 應用例項 匯入模組import requestsfrom bs4 import beautifulsoup 填寫頭請求,包括爬取網頁 headers result 暫定爬取9頁名字for i in range 1,10 url str i html r requests.get url,hea...

java網頁資料爬取

在瀏覽器書籤中有許多經典的東西,有時候什麼忘記了需要去查詢的,也非常方便,但是痛苦的事情是某一天開啟書籤,居然那個頁面不知道飛哪去了,打不開,作為乙個程式設計師,當然不能容忍這種事情發生,那就把它們都爬下來。首先我們的書籤可能有幾種分類,為了處理方便,可以手動刪除我們不需要的,也可以程式處理一下 以...

nodeJs爬取網頁資料

發現node可以爬蟲,正好我在找暑期實習,然後就使用node爬一下 資料找實習。爬取目標 載入http模組 目標 嘿嘿,這個 有很多實習職位 http的get請求乙個目標 函式的引數是response,繫結兩個事件,乙個 data 事件,會不斷觸發獲取資料,資料獲取完觸發 end 事件。爬到的的資料...