scrapy框架爬蟲的主要步驟

scrapy框架爬蟲的主要步驟：

1.進入你要建立爬蟲專案的目錄，例如我的：cd e:\spiders_test\day7

2.使用命令：

2.1 建立爬蟲專案： scrapy startproject daomu ；

2.2 建立爬蟲檔案： cd 專案資料夾 scrapy genspider 爬蟲名網域名稱

2.3 允許爬蟲： scrapy crawl 爬蟲名

3.進入專案：cd daomu scrapy genspider daomu www.daomu.com

import scrapy
class
daomuitem
(scrapy.item)
:# define the fields for your item here like:
# name = scrapy.field()
# pass
#卷名 juan_name=scrapy.field(
)#章節數量
zh_num = scrapy.field(
)#章節名字
zh_name = scrapy.field(
)#章節鏈結
zh_link = scrapy.field(
)#章節內容
zh_content = scrapy.field()5
.編寫爬蟲檔案實現資料抓取，比如我的就是spiders/daomu.py
6.設定管道檔案，pipelines;實現資料處理：
class
daomupipeline
(object):
defprocess_item
(self, item, spider)
:# return item
filename=
'./tt.txt'
.format
( item[
'juan_name'],
item[
'zh_num'],
item[
'zh_name'])
f=open
(filename,
'w')
f.write(item[
'zh_content'])
f.close(
)return item
7.設定settings檔案：
default_request_headers =
item_pipelines ='8
.新建begin檔案，實現資料爬取的啟動入口：
from scrapy import cmdline
cmdline.execute(
'scrapy crawl daomu'
.split(
))

以上就是爬取資料的大致步驟，當然，有的是放到mongodb,或者mysql，或者excel檔案中，還需要分別在settings,pipelines進一步設定

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後，深入學習了一下scrapy這個爬蟲框架，現將一些基本知識和總結整理一下，以備後查。2.scrapy的命令列使用這部分網上很多部落格都有總結，不需要背，理解會用主要的命令 startproject crawl fetch list genspider.即可，...

scrapy 爬蟲框架

1.安裝公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱執行此命令,可以生成乙個爬蟲專案會預先生成...

Scrapy爬蟲框架

scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動，並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊，以便之後引擎請求request時提供給引擎。4.spider。spider是scra...

scrapy框架爬蟲的主要步驟

scrapy爬蟲框架

scrapy 爬蟲框架

Scrapy爬蟲框架

相關推薦