爬蟲利器初體驗

2021-09-01 23:41:34 字數 3194 閱讀 9873

scrapy 資料流

scrapy 元件

爬取豆瓣電影 top250

前言為什麼要學 scrapy 呢?看下圖,就清楚了。很多招聘要求都有 scrapy,主要是因為 scrapy 確實很強。那到底強在**呢?請在文中找答案。

scrapy 資料流

首先我們先來學習一下 scrapy 的工作流程。scrapy文件位址

1、爬蟲引擎獲得初始請求開始抓取。

2、爬蟲引擎開始請求排程程式,並準備對下一次的請求進行抓取。

3、爬蟲排程器返回下乙個請求給爬蟲引擎。

7、爬蟲處理響應,並通過中介軟體返回處理後的items,以及新的請求給引擎。

8、引擎傳送處理後的items到專案管道,然後把處理結果返回給排程器,排程器計畫處理下乙個請求抓取。

9、重複該過程(繼續步驟1),直到爬取完所有的 url 請求。

scrapy 元件

爬蟲引擎

爬蟲引擎負責控制各個元件之間的資料流,當某些操作觸發事件後都是通過engine來處理。

排程器排程接收來engine的請求並將請求放入佇列中,並通過事件返回給engine。

spider

item pipeline

負責處理engine返回spider解析後的資料,並且將資料持久化,例如將資料存入資料庫或者檔案。

download middleware

spider middleware

spider中介軟體是engine和spider之間的互動元件,以鉤子(外掛程式)的形式存在,可以代替處理response以及返回給engine items及新的請求集。

爬取豆瓣電影 top250

安裝pip install scrapy

初始化爬蟲

scrapy startproject doubantop250(專案名稱)

目錄架構如下,其中 douban_spider.py 為手動建立。

啟動爬蟲

scrapy crawl douban(後面會解釋,這個dougban 是從**來的,此處先留乙個小坑)

spider

以下**為douban_spider.py ,裡面都有相應的注釋,以方便理解

class recruitspider(scrapy.spiders.spider):

#此處為上面留下的小坑,即是設定爬蟲名稱

name = douban

#設定允許爬取的網域名稱

allowed_domains = [douban.com]

#設定起始 url

start_urls = [

#每當網頁資料 download 下來,就會傳送到這裡進行解析

#然後返回乙個新的鏈結,加入 request 佇列

def parse(self, response):

item = doubantop250item()

selector = selector(response)

movies = selector.xpath('//div[@class=info]')

for eachmovie in movies:

title = eachmovie.xpath('div[@class=hd]/a/span/text()').extract() # 多個span標籤

fulltitle = .join(title)

movieinfo = eachmovie.xpath('div[@class=bd]/p/text()').extract()

star = eachmovie.xpath('div[@class=bd]/div[@class=star]/span/text()').extract()[0]

quote = eachmovie.xpath('div[@class=bd]/p[@class=quote]/span/text()').extract()

# quote 可能為空,這裡進行判斷一下

if quote:

quote = quote[0]

else:

quote = ''

item['title'] = fulltitle

item['movieinfo'] = ';'.join(movieinfo)

item['star'] = star

item['quote'] = quote

yield item

nextlink = selector.xpath('//span[@class=next]/link/@href').extract()

if nextlink:

nextlink = nextlink[0]

yield request(urljoin(response.url, nextlink), callback=self.parse)

pipelines

每當 spider 分析完 html 之後,變會返回 item,傳遞給 item pipelines。上面**中:

yield item

便是返回的資料。

一般 pipelines 常用於:

檢查是否有某些字段

將資料存進資料庫

資料查重

由於只是初步嘗試一下 scrapy 爬蟲,所以這裡我沒有進行修改

class doubantop250pipeline(object):

def process_item(self, item, spider):

return item

items

定義我們需要獲取的字段

class doubantop250item(scrapy.item):

# define the fields for your item here like:

# name = scrapy.field()

title = scrapy.field() # 電影名字

movieinfo = scrapy.field() # 電影的描述資訊,包括導演、主演、電影型別等等

star = scrapy.field() # 電影評分

quote = scrapy.field() # 膾炙人口的一句話

pass

setting

settings.py定義我們爬蟲的各種配置,由於這裡是初步了解 scrapy 故相應的介紹會在後面。

啟動爬蟲

scrapy crawl douban

後記關於豆瓣電影的小爬蟲就下完了,後面會深入解析一下 scrapy 的高階用法。

Scrapy框架系列 爬蟲利器之初體驗(1)

pip install scrapyscrapy startproject doubantop250 專案名稱 scrapy crawl douban 後面會解釋,這個 dougban 是從 來的,此處先留乙個小坑 yield itemclass doubantop250pipeline objec...

scrapy之爬蟲初體驗

本篇文章主要將怎樣建立乙個scrapy專案,以及完成第乙個scrapy爬蟲專案。首先是安裝scrapy模組,有很多原因都能導致scrapy模組安裝失敗,網上有很多教程讓怎樣安裝scrapy。親測比較有效的方法使用whl檔案安裝。不過有小夥伴也可以嘗試直接使用pip install scrapy命令進...

Python爬蟲之初體驗

python爬蟲,一般用於抓取特定的內容,最近想學學,通過網路抓取自己想要的內容,於是乎學習了一下python,用乙個小案例來紀念一下學習的成果。coding utf 8 import urllib import re 定義個函式 抓取網頁內容 def gethtml url webpage url...