scrapy基本介紹及執行原理

2021-08-19 21:01:19 字數 828 閱讀 5840

1 scrapy是用純python實現乙個為了爬取**資料、提取結構性資料而編寫的應用框架,用途廣泛。

2 使用者只需要定製開發的幾個模組就能輕鬆實現乙個爬蟲,用來抓取網頁內容、。

1 scrapy engine(引擎):負責spider、itempipline、**********、scheduler中間的通訊,訊號、資料傳遞等。

4 spider(蜘蛛):負責處理所有responses,從中分析提取資料,獲取item欄位需要的資料,並將需要跟進的url提交給引擎,再次進入排程器。

5 itempipline(管道):負責處理spider中獲取到的item,並進行後期處理(詳細分析、過濾、儲存等)的地方

6 spider middlewares(spider中介軟體):可以自定義擴充套件、操作引擎和spider中間 通訊  的功能元件。(比如進入spider和responses,和從spoider出去的requests)

1 引擎訪問spider,詢問需要處理的url鏈結,spider收到請求,將需要處理的url告訴引擎,然後將url給引擎處理。

2 引擎通知排程器,排程器得到通知將url排序入隊,並加以處理。

3 引擎通知排程器,排程器將處理好的request返回給引擎

7 spider收到通知後,處理接收的資料

8 spider處理完資料後返回給引擎兩個結果:乙個是需要跟進的url,另乙個是獲取到的item資料。

9 引擎將接收到的item資料交給管道處理,將需要跟進的url交給排程器處理。重複迴圈直到獲取完需要的全部資訊。

Scrapy基本命令及spider介紹

scrapy基本命令 1.help scrapy的基本命令,用於檢視幫助資訊 列 scrapy help 2.version 檢視版本資訊,可見 v引數檢視各元件的版本資訊 列 scrapy version v 3.startproject 用於建立乙個工程,並建立乙個完整的工程目錄 列 scrap...

scrapy介紹及使用

其流程可以描述如下 爬蟲提取url位址,組裝成request物件 爬蟲中介軟體 引擎 排程器 爬蟲提取資料 引擎 管道 管道進行資料的處理和儲存 注意 命令 scrapy startproject 專案名 示例 scrapy startproject myspider 生成的目錄和檔案結果如下 se...

Django安裝介紹及執行原理

安裝 pip install django 1.11.4 測試是否安裝成功 終端進入python環境 import django django.get version 1.11.4 安裝成功 一 簡介 1 django是乙個python寫的開源的web應用框架。初次發布於2005年7月,並於2008...