Python Scrapy多頁資料爬取實現過程解析

2022-10-04 14:15:39 字數 1378 閱讀 4017

1.先指定通用模板

url = '程式設計客棧/%d/'#通用的url模板

pagenum = 1

2.對parse方法遞迴處理

parse第一次呼叫表示的是用來解析第一頁對應頁面中的資料

對後面的頁碼的資料要進行手動傳送

if self.pagenum <= 5:

self.pagenum += 1

new_url = format(self.url%self.pagenum)

#手動請求(get)的傳送

yield scrapy.request(new_url,callback=self.parse)

完整示例

class qiubaispider(scrapy.spider):

name = 'qiubai'

# allowed_domains = ['www.***.com']

start_urls = ['']

url = 'https://程式設計客棧www.qiushibaike.com/text/page/%d/'#通用的url模板

pagenum = 1

#parse第一次呼叫表示的是用來解析第一頁對應頁面中的段子內容和作者

def parse(self, response):

div_list = response.xpath('//*[@id="content-left"]/div')

all_datffmwpla =

for div in div_list:

author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()

content = div.xpath('./a[1]/div/span//text()').extract()

conwww.cppcns.comtent = ''.join(content)

# 將解析的資料儲存到item物件

item = qiubaiproitem()

item['author'] = author

item['content'] = content

# 將item提交給管道

yield item # item一定是提交給了優先順序最高的管道類

if self.pagenum <= 5:

self.pagenum += 1

new_url = format(self.url%self.pagenum)

#手動請求(get)的傳送

yield scrapy.request(new_url,callback=self.parse)

本文標題: python scrapy多頁資料爬取實現過程解析

本文位址: /jiaoben/python/318959.html

爬蟲 爬取多頁資料

最近在寫乙個簡單的爬蟲,最開始使用的是bs4工具,但是後面接觸到xpath,覺得這個比較適合我哈哈.然後用xpath又重新寫了一遍,其中讓我困擾的還是多頁爬取,ip老是被封.網上找了很多方法,大多數都是說要建立乙個ip池,迴圈爬取多頁資料的時候,就換ip這樣就不會被封了.然後 ip有兩種,乙個要付費...

爬蟲(5)爬取多頁資料

我們點開其他年份的gdp資料時,會發現 的變化只有後面的數字變成了相應的年份,所以我們可以通過for迴圈來實現對多頁資料的爬取 from selenium import webdriver from bs4 import beautifulsoup import csv driver webdriv...

python scrapy學習踩點

內容很多,今天簡單學習了scrapy的資料抓取基本流程。建立專案 更改items 寫spiders邏輯。使用命令 scrapy startproject wo 建立名為wo的專案,結構如下 c scrapy.cfg wo items.py pipelines.py settings.py init ...