Scrapy爬蟲檔案批量執行的實現

2022-10-04 13:36:32 字數 1474 閱讀 3267

scrapy批量執行爬蟲檔案的兩種方法:

1、使用crawprocess實現

2、修改craw原始碼+自定義命令的方式實現

(1www.cppcns.com)我們開啟scrapy.commands.crawl.py 檔案可以看到:

def run(self, args, opts):

if len(args) < 1:

raise usageerr

elif len(args) > 1:

raise usageerror("running 'scrapy crawl' with more than one spider is no longer supported")

spname = args[0]

self.crawler_process.crawl(spname, *

self.crawler_process.start()

這是crawl.py 檔案中的run() 方法,在此可以指定執行哪個爬蟲,要執行所有的爬蟲,則需要更改這個方法。

run() 方法中通過crawler_process.crawl(spname, **opts.spargs) 實現了爬蟲檔案的執行,spname代表爬蟲名。要執行多個爬蟲檔案,首先要獲取所有的爬蟲檔案,可以通過crawler_process.spider_loader.list() 實現。

(2)實現過程:

a、在spider目錄的同級目錄下建立存放源**的資料夾mycmd,並在該目錄下建立檔案mycrawl.py;

b、將crawl.py 中的**複製到mycrawl.py 檔案中,然後進行修改:

#修改後的run() 方法

def run(self, args, opts):

#獲取爬蟲列表

spd_loader_list = self.crawler_process.spider_loader.list()

#遍歷程式設計客棧各爬蟲

for spname in spd_loader_list or args:

self.crawler_process.crawl(spname, **opts.spargs)

print("此時啟動的爬蟲:"+spname)

self.crawler_process.start()

同時可以修改:

def short_desc(self):

return "run all spider"

c、在mycmd資料夾下新增乙個初始化檔案__init__.py,在專案配置檔案(setting.py)中新增格式為「commands_modules='專案核心目錄.自定義命令原始碼目錄'」的配置;

例如:commands_module = 'firstpjt.mycmd'

隨後通過命令「scrapy -h」,可以檢視到我們新增的命令mycrawl

這樣,我們就可以同時www.cppcns.com啟動多個爬蟲檔案了,使用命令:

scrapy mycrawl --nolog

Scrapy 執行爬蟲檔案批量

吧 1.使用修改 crawl 原始碼 自定義命令方式實現 2.建立專案 scrapy startproject mymultispd 3.進入專案檔案建立多個爬蟲檔案 scrapy genspider t basic myspd1 sina.com.cn scrapy genspider t bas...

Scrapy 執行多個爬蟲spider檔案

1.在專案資料夾中新建乙個commands資料夾 2.在command的資料夾中新建乙個檔案 crawlall.py 3.在crawlall.py 中寫乙個command類,該類繼承 scrapy.commands from scrapy.commands import scrapycommand ...

檔案批量重新命名

今天遇到乙個問題,有一批檔案,需要修改字尾名,還要將前面的部分字元刪除,首先想到重新命名命令 ren 試了幾次,無法實現需求,只能,批處理了。在網上查了一下,寫了個,將字尾為.doc.doc的該為只有乙個.doc echo off setlocal enabledelayedexpansion 開啟...