scrapy框架基本使用

2021-10-04 21:11:35 字數 1549 閱讀 4278

進入工程目錄

建立爬蟲檔案

編寫爬蟲檔案

執行工程

allow_domains:允許的網域名稱

parse(self, response):

scrapy工程預設是遵守robots協議的,需要在配置檔案中進行操作。

基於管道:

3.將在爬蟲檔案中解析的資料儲存封裝到item物件中

4.將儲存了解析資料的item物件提交給管道

5.在管道檔案中接收item物件,且對其進行任意形式的持久化儲存操作

6.在配置檔案中開啟管道

如何實現資料的備份? -指的是將爬取到的一組資料儲存到多個不同的載體(檔案、mysql、redis)中

問題:那兩個管道類都接收到item,且對其進行持久化儲存,爬蟲檔案提交的item可以同時提交給兩個管道類嗎?

如何讓優先順序低的管道類也可以獲取接收到item呢?

如何手動發起post請求?

callback接收meta:

降低日誌級別:

禁止cookie:

禁止重試:

爬蟲中介軟體

作用:

攔截請求

請求頭的偽裝。

**

攔截響應。

攔截異常的請求物件

執行工程

鏈結提取器、規則解析器是crawlspider獨有的

鏈結提取器linkextractor

規則解析器rule

注意:follow=true:

scrapy-redis元件作用:

實現流程:

4.修改爬蟲檔案。

基於常規的操作獲取url,傳送請求解析資料。

5.修改配置檔案settings.py

使用scrapy_redis元件自己的排程器。

配置排程器是否要持久化,也就是當爬蟲結束了,要不要清空ready中請求佇列和去重指紋的set。如果是true,則表示要持久化儲存。就不清空資料。否則清空資料。

指定管道:

指定redis伺服器:

6.對redis的配置檔案進行配置(redis.windows.conf)

關閉保護模式。

7.啟動redis的伺服器和客戶端

8.執行分布式程式

9.向排程器的佇列中扔入乙個起始的url:

redis-cli:

核心:去重

實現增量:

Scrapy框架基礎使用

1 流程框架 2 在命令列中輸入scrapy,會有scrapy常見命令引數 在命令中輸入scrapy startproject quote建立乙個叫quote的專案 cd到建立好的專案目錄中,然後執行scrapy genspider quotes quotes.toscrape.com,建立spid...

Python使用scrapy框架小結

1 整個專案的構成 2 乙個完整的專案設計四個python檔案的編寫,分別是items.py qutoes spider.py scrapy genspider qutoes spider.py jycinema.com後生成,非系統自帶 settings.py pipelines.py 四個檔案對...

Scrapy框架 使用筆記

本文記錄scrapy基本使用方法,不涉及框架底層原理說明。建立專案 scrapy startproject 進入專案 cd 建立爬蟲 scrapy genspider 爬蟲名 com 爬取域 生成檔案 scrapy crawl o json 生成某種型別的檔案 執行爬蟲 scrapy crawl 列...