Scrapy五大核心元件簡介

2022-08-04 17:42:14 字數 905 閱讀 8310

五大核心元件

下面我們說說他們各自的作用:

排程器

用來接受引擎發過來的請求,由過濾器重複的url並將其壓入佇列中,在引擎再次請求的時候返回,

可以想象成乙個url(抓取網頁的**或者說是鏈結)的優先佇列,由他決定下乙個要抓取的**是什麼,使用者可以根據自己的需求定製排程器

爬蟲

爬蟲是主要幹活的,使用者最關心的部分, 它可以生成url, 並從特定的url中提取自己需要的資訊, 即所謂的實體(item). 使用者也可以從中提取出鏈結, 讓scrapy繼續抓取下乙個頁面.
實體管道

負責處理爬蟲從網頁中抽取的實體, 主要的功能是持久化實體、驗證實體的有效性、清除不需要的資訊. 當頁面被爬蟲解析後, 將被傳送到專案管道, 並經過幾個特定的次序處理資料.
引擎工作流程

步驟詳解:

1.spider中的url被封裝成請求物件交給引擎(每乙個對應乙個請求物件)

2.引擎拿到請求物件之後,將全部交給排程器

3.排程器鬧到所有請求物件後,通過內部的過濾器過濾掉重複的url,最後將去重後的所有url對應的請求物件壓入到佇列中,隨後排程器排程出其中乙個請求物件,並將其交給引擎

8.引擎將response交給spiders

9.spiders拿到response後呼叫**方法進行資料解析,解析成功後生成item,隨後spiders將item交給引擎

10引擎將item交給管道,管道拿到item後進行資料的持久化儲存

scrapy五大核心元件

一 引擎 scrapy 用來處理整個系統的資料流處理,觸發事務 框架核心 二 排程器 scheduler 用來接受引擎發過來的請求,壓入佇列中,並在引擎再次請求的時候返回.可以想像成乙個url 抓取網頁的 或者說是鏈結 的優先佇列,由它來決定下乙個要抓取的 是什麼,同時去除重複的 四 爬蟲 spid...

scrapy之五大核心元件

爬蟲檔案的作用 a.解析資料 b.發請求 排程器 a.佇列 佇列是一種資料結構,擁有先進先出的特性。b.過濾器 過濾器適用於過濾的,過濾重複的請求。排程器是用來排程請求物件的。引擎 所有的例項化的過程都是由引擎來做的,根據那到的資料流進行判斷例項化的時間。處理流資料 觸發事物 scrapy五大核心元...

python爬蟲 scrapy五大核心元件和中介軟體

二 工作流程 三 中介軟體 3.2 爬蟲中介軟體 下面這張圖我們在python爬蟲 scrapy基本使用見到過,下面就稍微介紹一下scrapy的五大核心元件和中介軟體 scrapy引擎是用來控制整個系統的資料處理流程,並進行不同事務觸發,是scrapy框架的核心。排程器包含過濾器和乙個url佇列,排...