Scrapy流程簡介

一、由上圖可知，scrapy由以下元件組成：

1、engine：scrapy的引擎元件

2、scheduler：scrapy的排程器元件

4、spiders：scrapy的爬蟲元件

5、item、pipline：scrapy的管道元件

7、spidersmiddlewares: scrapy的spider中介軟體元件

二、每個元件的具體作用如下：

1、engine引擎負責scheduler、**********、spiders、items、pipline中間的通訊、訊號和資料的傳遞，相當於乙個資訊傳遞的橋梁。

2、scheduler是乙個request請求排程器，負責接收engine引擎傳送過來的request請求，然後scheduler排程器將request請求排隊，放入佇列中。當engine引擎需要請求資料的時候，scheduler排程器就將請求佇列中的資料傳送給engine引擎。

5、item、pipline管道元件，是封裝資料去重類，資料儲存類的地方。負責處理spider中獲取到的資料，進行後期的處理，對資料進行過濾或者儲存等。

7、spidersmiddlewares是自定義擴充套件引擎和spider中間通訊功能的元件。比如說，進入spider的response和從spider出去的request，可以在中間做一些修改。

三，資料流向

1、首先在spider中編寫請求的url，相當於引擎問spider想處理那些request請求，這時spider就會做出回應，將已編寫的request請求傳送給engin引擎；

2、engine引擎將spider傳送過的的請求發給scheduler排程器，排程器會將request請求排序成佇列；

3、engine引擎將會請求scheduler排程器是否已將request請求入隊，若已入隊，則scheduler排程器將請求佇列傳送給engine引擎；

5、spider接收engine引擎傳送過來的資料，對資料進行分析。該資料由兩部分組成，一部分是我們請求的資料，這部分資料會交給item、pipline進行資料儲存或者清洗；另一部分是新的請求，spider會將新的請求傳送給引擎，然後引擎再將這些新的請求傳送到排程器進行排隊。然後重複1、2、3、4操作，直到獲取到全部的資訊為止。

Scrapy流程簡介

Scrapy的簡介及工作流程講解

Scrapy框架的流程

scrapy 爬取流程

Scrapy流程簡介

Scrapy的簡介及工作流程講解

Scrapy框架的流程

scrapy 爬取流程

相關推薦