scrapy 框架的工作流程

2021-09-06 16:39:42 字數 1106 閱讀 4141

scrapy 框架的工作流程:

1,首先spider將需要傳送請求的url 經scapyengin(引擎)交給scheduler(排程器)

2,排程器(排隊入隊)處理後,經引擎,**********middlewares(可選,主要有user-agent,proxy**)交給**********

4,spider處理response,提取資料並將資料經scrapyengine交給itempipeline儲存(可以是本地,可以是資料庫,)提取url重新經scrapyengine交給scheduler進行下乙個迴圈,直到無url請求程式停止結束。

通過看上面的示意圖,我們可以看出最主要的核心部件是scrapy engine,;另外還有scheduler + downlodaer + spiders + item pipeline 四個功能部件,除此之外還有自己配置的 ********** middleware+spider middleware兩個可自由配置的拓展中介軟體。

1.scrapy engine 執行引擎

這是scrapy的爬蟲核心,主要負責控制系統各個部件之間的data flow(資料流),以及當特定事件發生的時候觸發event(事件專案)。

2.scheduler    排程程式

接受engine發來的requests放入佇列中,當engine要求的時候再提供給engine。

4.spider

使用者自行編寫的**類,這部分的使用者**主要完成解析response(響應)並提取item,或者是跟進頁面中獲取的額外的link url 鏈結**。

5、item  pipeline 專案管道

負責處理有蜘蛛從網頁中抽取的專案,他的主要任務是清晰、驗證和儲存資料。當頁面被蜘蛛解析後,將被傳送到專案管道,並經過幾個特定的次序處理資料。

7、spider middlewares 爬蟲中介軟體

介於scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。

8、scheduler middewares 排程中介軟體

介於scrapy引擎和排程之間的中介軟體,從scrapy引擎傳送到排程的請求和響應。

Scrapy工作流程

引擎 engine 用來處理整個系統的資料流,觸發事務 框架核心 排程器 scheduler 用來接受引擎發過來的請求,壓入佇列中,並在引擎再次請求的時候返回.可以想像成乙個url 抓取網頁的 或者說是鏈結 的優先佇列,由它來決定下乙個要抓取的 是什麼,同時去除重複的 爬蟲 spiders 專案管道...

Scrapy的簡介及工作流程講解

目錄 1 簡介 2 安裝 3 scrapy架構圖 名詞解釋 4 scrapy工作流程 scrapy是乙個python的爬蟲框架,它使用twisted作為非同步處理網路請求 它可以將非結構化的資料或者半結構化的資料轉化為結構化資料。包含了各種中介軟體去各司其職的去完成乙個任務。spiders發起乙個請...

shiro框架的基本工作流程

當使用者前台登入發起請求時 1.從shiro中獲取subject主體 securityutils.getsubject 2.判斷當前使用者是否認證過了,如果認證過了就放行了 subject.isauthenticated 3.如果沒有認證過,就把前台傳遞的賬號密碼封裝為乙個usernamepassw...