scrapy框架爬蟲的主要步驟

2021-10-08 10:30:04 字數 1491 閱讀 4348

scrapy框架爬蟲的主要步驟:

1.進入你要建立爬蟲專案的目錄,例如我的:cd e:\spiders_test\day7

2.使用命令:

2.1 建立爬蟲專案: scrapy startproject daomu ;

2.2 建立爬蟲檔案: cd 專案資料夾 scrapy genspider 爬蟲名 網域名稱

2.3 允許爬蟲: scrapy crawl 爬蟲名

3.進入專案:cd daomu scrapy genspider daomu www.daomu.com

import scrapy

class

daomuitem

(scrapy.item)

:# define the fields for your item here like:

# name = scrapy.field()

# pass

#卷名 juan_name=scrapy.field(

)#章節數量

zh_num = scrapy.field(

)#章節名字

zh_name = scrapy.field(

)#章節鏈結

zh_link = scrapy.field(

)#章節內容

zh_content = scrapy.field()5

.編寫爬蟲檔案實現資料抓取,比如我的就是spiders/daomu.py

6.設定管道檔案,pipelines;實現資料處理:

class

daomupipeline

(object):

defprocess_item

(self, item, spider)

:# return item

filename=

'./tt.txt'

.format

( item[

'juan_name'],

item[

'zh_num'],

item[

'zh_name'])

f=open

(filename,

'w')

f.write(item[

'zh_content'])

f.close(

)return item

7.設定settings檔案:

default_request_headers =

item_pipelines ='8

.新建begin檔案,實現資料爬取的啟動入口:

from scrapy import cmdline

cmdline.execute(

'scrapy crawl daomu'

.split(

))

以上就是爬取資料的大致步驟,當然,有的是放到mongodb,或者mysql,或者excel檔案中,還需要分別在settings,pipelines進一步設定

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...

Scrapy爬蟲框架

scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動,並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊,以便之後引擎請求request時提供給引擎。4.spider。spider是scra...