Scrapy庫的介紹和結構

2021-10-03 08:36:04 字數 525 閱讀 2866

(2)scheduler----engine----**********----endine----spiders

engine模組從scheduler模組獲得下乙個要怕爬取的網路請求,engine獲得請求後通過中介軟體傳送給**********模組,**********模組拿到請求後真實的連線網際網路並且爬取相關的網頁,爬取到網頁後,**********模組將爬取的內容形成乙個物件,即響應(response),將所有的內容封裝成乙個response之後,將這個響應再通過中介軟體交給engine,最終在傳送給spiders

在這個框架中,入口是spiders,出口是item pipelines,這兩個需要使用者自己編寫配置,而engine,**********,scheduler都是已有功能的實現,spiders模組向框架提供要訪問的url鏈結,同時要解析從頁面上獲得的內容,item pipelines負責對提取的資訊進行後處理

在這個框架中使用者僅對spiders模組和item pipelines模組進行編寫,即使用者在scrapy框架下經過簡單的配置就可以實現執行的功能,最終實現爬蟲需求

requests庫和Scrapy比較

相同點 兩者都可以進行頁面請求和爬取,python爬蟲的兩個重要技術路線 兩者可用性都好,文件豐富,入門簡單 兩者都沒有處理js 提交表單 對應驗證碼等功能功能 可擴充套件 requests scrapy 頁面級爬蟲 級爬蟲 功能庫框架 併發性考慮不足,效能較差 併發性好,效能較高 重點在於爬蟲結構...

Scrapy基本介紹的學習(一)

scrapy框架 scrapy工作流程 第二步 引擎從spider中獲取第乙個要爬取的url並通過scheduler 排程器 以request進行排程 第七步 spider處理response並返回爬取到的item及 跟進的 新的request給引擎。第八步 引擎講 spider返回的 爬取到的it...

3 B S結構和C S結構的介紹

1 概覽 b s結構,即browser server 瀏覽器 伺服器 瀏覽器 如 ie firefox chrome等 http協議 伺服器 apahce等 c s結構,即client server 客戶端 伺服器 客戶端 如 qq 旺旺 yy等 tcp ip協議 伺服器 apahce等 2 b s...