scrapy 框架的工作流程

scrapy 框架的工作流程：

1，首先spider將需要傳送請求的url 經scapyengin(引擎）交給scheduler（排程器）

2，排程器（排隊入隊）處理後，經引擎，**********middlewares（可選，主要有user-agent，proxy**）交給**********

4，spider處理response，提取資料並將資料經scrapyengine交給itempipeline儲存（可以是本地，可以是資料庫，）提取url重新經scrapyengine交給scheduler進行下乙個迴圈，直到無url請求程式停止結束。

通過看上面的示意圖，我們可以看出最主要的核心部件是scrapy engine,；另外還有scheduler + downlodaer + spiders + item pipeline 四個功能部件，除此之外還有自己配置的 ********** middleware+spider middleware兩個可自由配置的拓展中介軟體。

1.scrapy engine 執行引擎

這是scrapy的爬蟲核心，主要負責控制系統各個部件之間的data flow（資料流），以及當特定事件發生的時候觸發event（事件專案）。

2.scheduler 排程程式

接受engine發來的requests放入佇列中，當engine要求的時候再提供給engine。

4.spider

使用者自行編寫的**類，這部分的使用者**主要完成解析response（響應）並提取item，或者是跟進頁面中獲取的額外的link url 鏈結**。

5、item pipeline 專案管道

負責處理有蜘蛛從網頁中抽取的專案，他的主要任務是清晰、驗證和儲存資料。當頁面被蜘蛛解析後，將被傳送到專案管道，並經過幾個特定的次序處理資料。

7、spider middlewares 爬蟲中介軟體

介於scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。

8、scheduler middewares 排程中介軟體

介於scrapy引擎和排程之間的中介軟體，從scrapy引擎傳送到排程的請求和響應。

scrapy 框架的工作流程

Scrapy工作流程

Scrapy的簡介及工作流程講解

shiro框架的基本工作流程

scrapy 框架的工作流程

Scrapy工作流程

Scrapy的簡介及工作流程講解

shiro框架的基本工作流程

相關推薦