scrapy之五大核心元件

2022-07-20 10:57:17 字數 1030 閱讀 2740

爬蟲檔案的作用

a. 解析資料

b. 發請求

排程器

a. 佇列

佇列是一種資料結構,擁有先進先出的特性。

b. 過濾器

過濾器適用於過濾的,過濾重複的請求。

排程器是用來排程請求物件的。

引擎

所有的例項化的過程都是由引擎來做的,根據那到的資料流進行判斷例項化的時間。

處理流資料

觸發事物

scrapy五大核心元件之間的工作流程

scrapy框架得的五大元件之間的工作流程上圖所示:

當我們執行爬蟲檔案的時候,這五大元件就已經開始工作了 。其中,

1  首先,我們最原始的起始url是在我們爬蟲檔案中的,通常情況系,起始的url只有乙個,當我們的爬蟲檔案執行的時候,首先對起始url傳送請求,將起始url封裝成了請求物件,將請求物件傳遞給了引擎,引擎就收到了爬蟲檔案給它傳送的封裝了起始url的請求物件。我們在爬蟲檔案中傳送的請求並沒有拿到響應(沒有馬上拿到響應),只有請求傳送到伺服器端,伺服器端返回響應,才能拿到響應。

2  引擎拿到這個請求物件以後,又將請求物件傳送給了排程器,佇列接受到的請求都放到了佇列當中,佇列中可能存在多個請求物件,然後通過過濾器,去掉重複的請求

3  排程器將過濾後的請求物件傳送給了引擎,

8  最終,這個響應物件又由引擎給了spider(爬蟲檔案),由parse方法中的response物件來接收,然後再parse方法中進行解析資料,此時可能解析到新的url,然後再次發請求;也可能解析到相關的資料,然後將資料進行封裝得到item,

9  spider將item傳送給引擎,

10  引擎將item傳送給管道。

爬蟲中介軟體

攔截請求和響應,對請求和響應進行處理。

scrapy五大核心元件

一 引擎 scrapy 用來處理整個系統的資料流處理,觸發事務 框架核心 二 排程器 scheduler 用來接受引擎發過來的請求,壓入佇列中,並在引擎再次請求的時候返回.可以想像成乙個url 抓取網頁的 或者說是鏈結 的優先佇列,由它來決定下乙個要抓取的 是什麼,同時去除重複的 四 爬蟲 spid...

Scrapy五大核心元件簡介

五大核心元件 下面我們說說他們各自的作用 排程器 用來接受引擎發過來的請求,由過濾器重複的url並將其壓入佇列中,在引擎再次請求的時候返回,可以想象成乙個url 抓取網頁的 或者說是鏈結 的優先佇列,由他決定下乙個要抓取的 是什麼,使用者可以根據自己的需求定製排程器 爬蟲 爬蟲是主要幹活的,使用者最...

scrapy之五大元件

先說明一下五大元件各自的作用 用來完成整個系統的資料流處理,觸發事務 框架核心 包括兩部分 過濾器和佇列,用來接受引擎發過來的請求,先經過過濾器對請求進行去重,然後壓入佇列中,可以想像成乙個url 抓取網頁的 或者說是鏈結 的優先佇列,由它來決定下乙個要抓取的 是什麼,然後再根據佇列將url返回給引...