python scrapy框架簡介及抓取流程

scrapy簡介

scrapy是乙個為了爬取**資料，提取結構性資料而編寫的應用框架。 scrapycrawl則是在scrapy基礎上進一步處理資料的爬蟲框架

scrapy執行流程圖

scrapy主要包括了以下元件：

引擎(scrapy): 用來處理整個系統的資料流處理, 觸發事務(框架核心) 排程器(scheduler): 用來接受引擎發過來的請求, 壓入佇列中, 並在引擎再次請求的時候返回. twisted這個高效的非同步模型上的) 爬蟲(spiders): 爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的資訊, 即所謂的實體(item)。專案管道(pipeline): 負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的資訊。當頁面被爬蟲解析後，將被傳送到專案管道，並經過幾個特定的次序處理資料。爬蟲中介軟體(spider middlewares): 介於scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。排程中介軟體(scheduler middewares): 介於scrapy引擎和排程之間的中介軟體，從scrapy引擎傳送到排程的請求和響應。

相關**

scrapy執行流程：

1，引擎開啟乙個**(open a domain)，找到處理該**的spider並向該spider請求第乙個要爬取的url(s)。
2，引擎從spider中獲取到第乙個要爬取的url並在排程器(scheduler)以request排程。
3，引擎向排程器請求下乙個要爬取的url。
7，spider處理response並返回爬取到的item及(跟進的)新的request給引擎。
8，引擎將(spider返回的)爬取到的item給item pipeline，將(spider返回的)request給排程器。

scrapy 常用命令

srapy startproject *** 建立爬蟲專案 scrapy crawl spider_name 啟動爬蟲 scrapy runspider spider_file.py 在為建立專案的情況下，執行乙個編寫在python檔案中的spider scrapy genspider [-t template] 在當前專案中建立spider scrapy list 列出所有爬蟲

python scrapy框架簡介及抓取流程

scrapy框架 Python Scrapy框架

Python Scrapy爬蟲框架安裝

python Scrapy框架爬蟲入門學習

python scrapy框架簡介及抓取流程

scrapy框架 Python Scrapy框架

Python Scrapy爬蟲框架安裝

python Scrapy框架爬蟲入門學習

相關推薦