scrapy框架元件

2021-08-25 02:36:48 字數 811 閱讀 9029

scrapy是乙個爬蟲框架,有著非常健全的管理系統,重要的是它支援分布式。

3.爬蟲(spiders):處理獲取到的所有responses,從其中分析提取item中標記好的資料,並將還需要進一步處理的url提交給引擎。

7.爬蟲中介軟體(spider middewares):負責對引擎和爬蟲之間的通訊進行處理。

看文章的時候看到很形象的描述:

資料在整個scrapy的流向:

程式執行的時候,

spiders:我要處理23wx.com

引擎:你把第乙個需要的處理的url給我吧。

spiders:給你第乙個url是******x.com

引擎:hi!排程器,我這有request你幫我排序入隊一下。

排程器:好的,正在處理你等一下。

引擎:hi!排程器,把你處理好的request給我,

排程器:給你,這是我處理好的request

spiders:(處理完畢資料之後對於需要跟進的url),hi!引擎,這是我需要跟進的url,將它的responses交給函式 def ***x(self, responses)處理。還有這是我獲取到的item。

引擎:hi !item pipeline

我這兒有個item你幫我處理一下!排程器!這是我需要的url你幫我處理下。然後從第四步開始迴圈,直到獲取到你需要的資訊,

以上就是scrapy整個流程了。

引用來自—靜覓

scrapy爬蟲框架(一) scrapy框架簡介

開啟命令列輸入如下命令 pip install scrapy安裝完成後,python會自動將 scrapy命令新增到環境變數中去,這時我們就可以使用 scrapy命令來建立我們的第乙個 scrapy專案了。開啟命令列,輸入如下命令 scrapy startproject yourproject這裡的...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...