2 scrapy使用步驟

2021-07-31 02:35:14 字數 2836 閱讀 6234

本篇介紹scrapy的使用步驟。scrapy是python的乙個框架,可以通過安裝python包的形式安裝,必須先安裝python。

安裝python2.7

安裝pip

安裝lxml(抽取資料)

安裝openssl(網頁訪問認證)

安裝scrapy

create a project

define items

write a spider

write and configure an item pipeline

execute crawler

建立工程

scrapy startproject tutorial

目錄結構如下:

建立乙個爬蟲

cd tutorial

scrapy genspider dmoz dmoz.org

此時目錄結構如下:

修改dmoz.py

# -*- coding: utf-8 -*-

import scrapy

class

dmozspider

(scrapy.spider):

name = "dmoz"

allowed_domains = ["dmoz.org"]

start_urls = [

'computers/programming/languages/python/books/',

'computers/programming/languages/python/resources/'

]def

parse

(self, response):

# 儲存start_urls中網頁的內容

filename = response.url.split('/')[-2] + '.html'

with open(filename, 'w') as fp:

fp.write(response.body)

執行爬蟲scrapy crawl dmoz此時,爬蟲將爬取兩個網頁的內容

修改items.py

import scrapy

class

tutorialitem

(scrapy.item):

# define the fields for your item here like:

# name = scrapy.field()

title = scrapy.field()

desc = scrapy.field()

link = scrapy.field()

再次修改dmoz.py

# -*- coding: utf-8 -*-

import scrapy

from tutorial.items import tutorialitem

class

dmozspider

(scrapy.spider):

name = "dmoz"

allowed_domains = ["dmoz.org"]

start_urls = [

'computers/programming/languages/python/books/',

'computers/programming/languages/python/resources/'

]def

parse

(self, response):

# 獲取li標籤。通過firefox瀏覽器的firebug外掛程式很容易獲取元素的xpath

lis = response.xpath('/html/body/div[2]/div[3]/fieldset[3]/ul/li')

for li in lis:

item = tutorialitem()

item['title'] = li.xpath('a/text()').extract()

item['link'] = li.xpath('a/@href').extract()

item['desc'] = li.xpath('text()')

yield item

執行爬蟲scrapy crawl dmoz此時,爬蟲將爬取網頁中的書籍名稱、鏈結和描述資訊

在實際應用中,還應該編寫pipelines.py檔案,將資料儲存到資料庫中。

爬蟲系列2 scrapy專案入門案例分析

本文從乙個基礎案例入手,較為詳細的分析了scrapy專案的建設過程 在官方文件的基礎上做了調整 主要內容如下 0 準備工作 1 scrapy專案結構 2 編寫spider 3 編寫item.py 4 編寫pipelines.py 5 設定settings.py 6 執行spider 安裝scrapy...

scrapy 安裝步驟

參考 1.安裝python 2.安裝setuptools 或者 pip ubuntu linux sudo apt get install python pip 解壓後進入資料夾執行 python setup.py install 3.安裝lxml lxml是一種使用 python 編寫的庫,可以迅...

Scrapy 專案步驟

1.建立專案 scrapy starproject 專案名 2.編寫 items.py檔案 設定需要儲存的資料字段,明確想要抓取的目標,用來儲存爬到的資料。3.建立爬蟲 scrapy genspider 爬蟲名 爬取的 4.進入專案專案名 spiders 3個預設建立的 name 編寫爬蟲檔案,檔案...