Python爬蟲 Scrapy框架的工作原理

scrapy框架架構圖

scrapy框架主要由六大元件組成，分別為：

scarpy框架模組功能

1. schedule(排程器):排程器從引擎接受request並將他們入隊，以便之後引擎請求他們時提供給引
3. spiders(爬蟲):spider是scrapy使用者編寫用於分析response並提取item(即獲取到的item)或額外跟進的url的類。 每個spider負責處理乙個特定(或一些)**
4. item pipeline(管道):item pipeline負責處理被spider提取出來的item。典型的處理有清理、 驗證及持久化(例如儲存到資料庫中)
5. scrapy engine(引擎):引擎負責控制資料流在系統的所有元件中流動，並在相應動作發生時觸發事
7. spiders middwares(爬蟲中介軟體):spider中介軟體是在引擎及spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。 其提供了乙個簡便的機制，通過插入自定義**來擴充套件scrapy功能

scrapy工作流程

1. 當爬蟲（spider）要爬取某url位址的頁面時，使用該url初始化request物件提交給引擎（scrapy engine），並設定**函式。 spider中初始的request是通過呼叫start_requests() 來獲取的。start_requests() 讀取start_urls 中的url，並以parse為**函式生成request 。 4. 應答包response物件最終會被遞送給爬蟲（spider）的頁面解析函式進行處理。 5. 若是解析出實體（item），則交給實體管道（item pipeline）進行進一步的處理。由spider返回的item將被存到資料庫(由某些item pipeline處理)或使用feed exports存入到檔案中。 6. 若是解析出的是鏈結（url）,則把url交給排程器(scheduler)等待抓取。以上就是scrapy框架的執行流程，也就是它的工作原理。request和response物件是血液，item是代謝產物。

Python爬蟲 Scrapy框架的工作原理

Python爬蟲學習（七）Scrapy爬蟲框架詳解

Mac python 搭建scrapy爬蟲框架

Python爬蟲 scrapy框架

Python爬蟲 Scrapy框架的工作原理

Python爬蟲學習（七）Scrapy爬蟲框架詳解

Mac python 搭建scrapy爬蟲框架

Python爬蟲 scrapy框架

相關推薦