Scrapy通用爬蟲

2021-08-22 10:26:39 字數 1321 閱讀 6480

通用爬蟲

主要時通過繼承 crawlspider, 定義一些爬去的規則來實現頁面的提取

crawlspider

rules

parse_start_url

定義rule時的引數

class scrapy.contrib.spiders.rule(link_extractor, callback=none, follow=none, 

cb_kwargs=none, follow=none, process_links=none,

process_request=none)

link_extractor:

callback:

cb_kwargs:

follow:

process_links:

process_request:

item loader 提取item

class scrapy.loader.itemloader([item, selector, response, ] **kwargs)
item:

selector:

response

例如:

from scrapy.loader import itemloader

from project.items import product

​ def parse(self, response):

loader = itemloader(item=product(), response=response)

loader.add_xpath('name', '//div[@class="name"]')

loader.add_css("stock", 'p#stock')

loader.add_value('last_updated', 'today')

return loader.load_item()

itemloader每個欄位都可以包含乙個input process和output process 輸入輸出處理器,input process 收到資料時會立刻對資料進行處理,並儲存在itemloader中,當所有資料收集完後,呼叫load_item方法填充item物件,呼叫時會先呼叫output processor來處理之前收集的資料,再存入item中

processor

Scrapy 通用爬蟲CrawlSpider

爬取 爬取字段 name population 爬取環境 ubuntu python3.6 這個例子是學習通用爬蟲的案例,匹配規則經過我的改動,更加的直觀 主要 如下 解析 item name response.xpath tr id places country or district row t...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...