Scrapy Python的爬蟲框架

2021-07-27 16:51:11 字數 576 閱讀 6348

木頭lbj 整理,您也想貢獻乙份力量?歡迎

加入我們 »

網路爬蟲,是在網上進行資料抓取的程式,使用它能夠抓取特定網頁的html資料。雖然我們利用一些庫開發乙個爬蟲程式,但是使用框架可以大大提高效率,縮短開發時間。scrapy是乙個使用python編寫的,輕量級的,簡單輕巧,並且使用起來非常的方便。

scrapy主要包括了以下元件:

引擎,用來處理整個系統的資料流處理,觸發事務。

排程器,用來接受引擎發過來的請求,壓入佇列中,並在引擎再次請求的時候返回。

蜘蛛,蜘蛛是主要幹活的,用它來制訂特定網域名稱或網頁的解析規則。

專案管道,負責處理有蜘蛛從網頁中抽取的專案,他的主要任務是清晰、驗證和儲存資料。當頁面被蜘蛛解析後,將被傳送到專案管道,並經過幾個特定的次序處理資料。

蜘蛛中介軟體,介於scrapy引擎和蜘蛛之間的鉤子框架,主要工作是處理蜘蛛的響應輸入和請求輸出。

排程中介軟體,介於scrapy引擎和排程之間的中介軟體,從scrapy引擎傳送到排程的請求和響應。

使用scrapy可以很方便的完成網上資料的採集工作,它為我們完成了大量的工作,而不需要自己費大力氣去開發。

官方**:

網路爬蟲(蜘蛛)Scrapy,Python安裝!

scrapy,python安裝,使用!latest python 2 release python 2.7.6,安裝時選擇當前使用者。2 到 pywin32 219.win amd64 py2.7.exe 3 將c python27 scripts c python27 新增到環境變數裡。4 vis...

Scrapy python爬蟲框架 入門筆記

本文章僅作為個人筆記 scrpy官網 scrpy官方文件 scrpy中文文件 個人scrapydemo專案位址 python環境安裝 pip easy install pip mac下安裝 centos7下安裝 scrapy 安裝pip install scrapy建立專案scrapy startp...

Scrapy Python3 學習計畫

精通scrapy網路爬蟲 目標 使用scrapy寫出大型爬蟲能力周時間 學習內容 目標是否完成 第一周2020 04 21 第一章 初識scrapy 了解scrapy ok2020 04 22 第二章 編寫spider 2.1scrapy框架結構及工作原理 2.2request和response物件...