Scrapy學習 二 框架簡介

2021-08-22 13:01:46 字數 901 閱讀 6448

1.引擎向蜘蛛索取**

2.引擎將要爬取的url交給排程器

3.排程器將url生成請求物件放入到指定的佇列

4.從佇列中出列乙個請求

8.引擎將資料交給蜘蛛

9. spider通過xpath解析,將解析結果交給引擎判斷

10.如果得到的url則繼續交給排程器,如果得到資料則交給管道處理

元件說明:

scrapy engine(引擎):負責spider,itempipeline,**********,scheduler之間的通訊,訊號,資料傳遞等

scheduler(排程器):負責接收引擎傳送過來的請求請求,並按照一定的方式進行整理排列,入隊,當引擎需要的時候再交還給引擎

spider(爬蟲):負責處理所有的響應,分析提取資料,獲取專案字段需要的資料,並將需要根據的**提交給引擎,再次進去排程器

item pipeline(管道):負責處理spider中獲取到的物品,並進行後期處理(如:詳細分析,過濾,儲存等)

spider middlewares(spider中介軟體):類似乙個可以自定義擴充套件和操作引擎的spider中間通訊的功能元件(比如進入spider的回應以及從spider出去)

(此處沒有使用管道檔案去解析,只有簡單的返回)

使用命令

scrapy crawl爬蟲名

執行爬蟲

Scrapy框架學習之簡介(一)

1.新建專案 scrapy startproject 新建乙個新的爬蟲專案 2.明確目標 編寫items.py 明確你想要抓取的目標 3.製作爬蟲 spiders xxspider.py 製作爬蟲開始爬取網頁 4.儲存內容 pipelines.py 設計管道儲存爬取內容 name 這個爬蟲的識別名稱...

Scrapy框架學習

scrapy框架的工作流程 1.首先spiders 爬蟲 將需要傳送請求的url requests 經scrapyengine 引擎 交給scheduler 排程器 2.scheduler 排序,入隊 處理後,經scrapyengine,middlewares 可選,主要有user agent,pr...

scrapy爬蟲框架 二

settings.py開啟pipeline,其中數字代表優先順序 值越小優先順序越高 configure item pipelines see item pipelines qsbk.py coding utf 8 import scrapy class qsbkspider scrapy.spid...