Scrapy工作原理

2021-09-10 09:48:06 字數 533 閱讀 7744

1、scrapy engine(引擎):引擎負責控制資料流在系統的所有元件中流動,並在相應動作發生時觸發事件。

2、scheduler(排程器):排程器從引擎接受request並將他們入隊,以便之後引擎請求他們時提供給引擎。

4、spider(爬蟲):spider是scrapy使用者編寫用於分析response並提取item(即獲取到的item)或額外跟進的url的類。 每個spider負責處理乙個特定(或一些)**。

5、item pipeline(管道):item pipeline負責處理被spider提取出來的item。典型的處理有清理、 驗證及持久化(例如儲存到資料庫中)。

當我們通過scrapy框架寫好**並執行後,就會出現如下對話:

Scrapy框架結構及工作原理

話不多說,先上圖1 首先,簡單了解一下scrapy框架中的各個元件 對於使用者來說,spider是最核心的元件,scrapy爬蟲開發是圍繞實現spider展開的。接下來,看一下在框架中的資料流,有下表所示的3種物件。request和response是http協議中的術語,即http請求和http響應...

Scrapy框架原理

1 scrapy engine scrapy引擎 scrapy引擎是用來控制整個系統的資料處理流程,並進行事務處理的觸發。更多的詳細內容可以看下面的資料處理流程。2 scheduler 排程 排程程式從scrapy引擎接受請求併排序列入佇列,並在scrapy引擎發出請求後返還給他們。4 spider...

Scrapy工作流程

引擎 engine 用來處理整個系統的資料流,觸發事務 框架核心 排程器 scheduler 用來接受引擎發過來的請求,壓入佇列中,並在引擎再次請求的時候返回.可以想像成乙個url 抓取網頁的 或者說是鏈結 的優先佇列,由它來決定下乙個要抓取的 是什麼,同時去除重複的 爬蟲 spiders 專案管道...