Scrapy原始碼閱讀 response處理過程

2021-10-03 22:35:53 字數 862 閱讀 9126

以官方教程quotesspider為例,結合原始碼分析一下scrapy中response的處理過程。

下面是待爬取的網頁,紅框中的是目標html標籤:

quote文字內容

如果output是request物件,則將其交給引擎準備繼續爬取,開啟executionengine類的crawl方法可以看到引擎直接將其交給了排程器

如果output是baseitem或字典型別,則將其交給item pipeline處理,下面具體分析一下這一步的處理過程

Scrapy原始碼閱讀 Spider引數傳遞

官方文件spider引數中提到,可以使用scrapy crawl命令的 a選項向spider傳遞引數 scrapy crawl myspider a arg1 value1 a arg2 value2 這些引數會被傳遞到自定義的myspider類的建構函式,並且超類spider的建構函式會將其拷貝到...

《原始碼閱讀》原始碼閱讀技巧,原始碼閱讀工具

檢視某個類的完整繼承關係 選中類的名稱,然後按f4 quick type hierarchy quick type hierarchy可以顯示出類的繼承結構,包括它的父類和子類 supertype hierarchy supertype hierarchy可以顯示出類的繼承和實現結構,包括它的父類和...

Redis原始碼研究 Redis的RESP協議

redis客戶端和服務端互動使用的是redis作者制定的乙個協議,叫resp redis serialization protocol 具體分如下幾個層次 客戶端發給服務端的命令都會序列化為array,而服務端返回給客戶端的可以為如上任意一種型別,各簡單舉例如下 具體介紹參考 請求響應模式有兩種特殊...