Scrapy爬蟲庫使用初體驗

安裝pip install scrapy

中間可能會遇到的問題：

建立專案：

其中*****是你的專案名

本文中使用tutorial

目錄如上圖所示

在items.py中寫入需要儲存的字段

import
scrapy
class tutorialitem(scrapy.item):
#define the fields for your item here like:
#name = scrapy.field()
title =scrapy.field()
link =scrapy.field()
pass

上述**中tutorialitem和專案名對應。這裡保留兩個字段，鏈結中的title和link

在spiders資料夾中新建爬蟲檔案命名隨意，本文中命名為dmoz_spider.py

import
scrapy
from tutorial.items import
tutorialitem
class
dmozspider(scrapy.spider):
name = "
dmoz
"allowed_domains = ["
"]start_urls =[
""]defparse(self, response):
for sel in response.xpath('
//ul/li'):
item =tutorialitem()
item[
'title
'] = sel.xpath('
a/text()
').extract()
item[
'link
'] = sel.xpath('
a/@href
').extract()
yield item

這裡定義了乙個名為dmoz的爬蟲，它去找存在於中的中的標籤中的text和href，並將text賦給item中定義的title欄位，將href賦給item中定義的link欄位。=。=

yield 是用來在迭代時減少記憶體開銷的

此時乙個簡單的爬蟲已經搭建完成，這時我們執行

scrapy crawl dmoz -o result.josn -t json

就可以執行名為dmoz的爬蟲，並將結果儲存在result.json中，結果如圖：

此處預設儲存的是unicode編碼

scrapy之爬蟲初體驗

本篇文章主要將怎樣建立乙個scrapy專案，以及完成第乙個scrapy爬蟲專案。首先是安裝scrapy模組，有很多原因都能導致scrapy模組安裝失敗，網上有很多教程讓怎樣安裝scrapy。親測比較有效的方法使用whl檔案安裝。不過有小夥伴也可以嘗試直接使用pip install scrapy命令進...

「黑客」入門爬蟲scrapy初體驗

歡迎關注，敬請點讚！pip install scrapy 需要在專案根目錄下，如d python spider 執行 scrapy startproject 專案名如 lab d python spider scrapy startproject lab 進入專案內 cd 專案名，d python...

Scrapy框架系列爬蟲利器之初體驗（1）

pip install scrapyscrapy startproject doubantop250 專案名稱 scrapy crawl douban 後面會解釋，這個 dougban 是從來的，此處先留乙個小坑 yield itemclass doubantop250pipeline objec...

Scrapy爬蟲庫使用初體驗

scrapy之爬蟲初體驗

「黑客」入門 爬蟲scrapy初體驗

Scrapy框架系列 爬蟲利器之初體驗（1）

相關推薦

「黑客」入門爬蟲scrapy初體驗

Scrapy框架系列爬蟲利器之初體驗（1）