Scrapy爬蟲庫使用初體驗

2022-03-27 06:32:47 字數 1429 閱讀 9512

安裝pip install scrapy

中間可能會遇到的問題:

建立專案:

其中*****是你的專案名

本文中使用tutorial

目錄如上圖所示

在items.py中寫入需要儲存的字段

import

scrapy

class tutorialitem(scrapy.item):

#define the fields for your item here like:

#name = scrapy.field()

title =scrapy.field()

link =scrapy.field()

pass

上述**中tutorialitem和專案名對應。這裡保留兩個字段,鏈結中的title和link

在spiders資料夾中新建爬蟲檔案命名隨意,本文中命名為dmoz_spider.py

import

scrapy

from tutorial.items import

tutorialitem

class

dmozspider(scrapy.spider):

name = "

dmoz

"allowed_domains = ["

"]start_urls =[

""]defparse(self, response):

for sel in response.xpath('

//ul/li'):

item =tutorialitem()

item[

'title

'] = sel.xpath('

a/text()

').extract()

item[

'link

'] = sel.xpath('

a/@href

').extract()

yield item

這裡定義了乙個名為dmoz的爬蟲,它去找存在於中的中的標籤中的text和href,並將text賦給item中定義的title欄位,將href賦給item中定義的link欄位。=。=

yield 是用來在迭代時減少記憶體開銷的

此時乙個簡單的爬蟲已經搭建完成,這時我們執行

scrapy crawl dmoz -o result.josn -t json
就可以執行名為dmoz的爬蟲,並將結果儲存在result.json中,結果如圖:

此處預設儲存的是unicode編碼

scrapy之爬蟲初體驗

本篇文章主要將怎樣建立乙個scrapy專案,以及完成第乙個scrapy爬蟲專案。首先是安裝scrapy模組,有很多原因都能導致scrapy模組安裝失敗,網上有很多教程讓怎樣安裝scrapy。親測比較有效的方法使用whl檔案安裝。不過有小夥伴也可以嘗試直接使用pip install scrapy命令進...

「黑客」入門 爬蟲scrapy初體驗

歡迎關注,敬請點讚!pip install scrapy 需要在專案根目錄下,如d python spider 執行 scrapy startproject 專案名 如 lab d python spider scrapy startproject lab 進入專案內 cd 專案名,d python...

Scrapy框架系列 爬蟲利器之初體驗(1)

pip install scrapyscrapy startproject doubantop250 專案名稱 scrapy crawl douban 後面會解釋,這個 dougban 是從 來的,此處先留乙個小坑 yield itemclass doubantop250pipeline objec...