scrapy之五大核心元件

爬蟲檔案的作用：

a. 解析資料

b. 發請求

排程器：

a. 佇列

佇列是一種資料結構，擁有先進先出的特性。

b. 過濾器

過濾器適用於過濾的，過濾重複的請求。

排程器是用來排程請求物件的。

引擎：

所有的例項化的過程都是由引擎來做的，根據那到的資料流進行判斷例項化的時間。

處理流資料

觸發事物

scrapy五大核心元件之間的工作流程：

scrapy框架得的五大元件之間的工作流程上圖所示：

當我們執行爬蟲檔案的時候，這五大元件就已經開始工作了。其中，

1 首先，我們最原始的起始url是在我們爬蟲檔案中的，通常情況系，起始的url只有乙個，當我們的爬蟲檔案執行的時候，首先對起始url傳送請求，將起始url封裝成了請求物件，將請求物件傳遞給了引擎，引擎就收到了爬蟲檔案給它傳送的封裝了起始url的請求物件。我們在爬蟲檔案中傳送的請求並沒有拿到響應（沒有馬上拿到響應），只有請求傳送到伺服器端，伺服器端返回響應，才能拿到響應。

2 引擎拿到這個請求物件以後，又將請求物件傳送給了排程器，佇列接受到的請求都放到了佇列當中，佇列中可能存在多個請求物件，然後通過過濾器，去掉重複的請求

3 排程器將過濾後的請求物件傳送給了引擎，

8 最終，這個響應物件又由引擎給了spider（爬蟲檔案），由parse方法中的response物件來接收，然後再parse方法中進行解析資料，此時可能解析到新的url，然後再次發請求；也可能解析到相關的資料，然後將資料進行封裝得到item，

9 spider將item傳送給引擎，

10 引擎將item傳送給管道。

爬蟲中介軟體

攔截請求和響應，對請求和響應進行處理。

scrapy之五大核心元件

scrapy五大核心元件

Scrapy五大核心元件簡介

scrapy之五大元件

scrapy之五大核心元件

scrapy五大核心元件

Scrapy五大核心元件簡介

scrapy之五大元件

相關推薦