Scrapy爬蟲框架下執行爬蟲的方法

2021-09-19 08:00:20 字數 1181 閱讀 4267

在使用scrapy框架進行爬蟲時,執行爬蟲檔案的方法是 scrapy crawl *** ,其中 *** 是爬蟲檔名。

但是,當我們在建立了多個檔案時,使用上面的命令時會比較繁瑣麻煩,我們就可以使用下述方法同時完成爬蟲檔案的執行。

第一種,在scrapy框架下建立乙個執行檔案,如 run.py ,在檔案中建立乙個列表,列表為爬蟲的執行命令,最後通過迴圈執行 execute() 函式完成執行。執行時使用 python run.py 命令即可。如下面的**所示

from scrapy.cmdline import execute

''''''

spiders = [

'scrapy crawl liepin',

'scrapy crawl lagou']

if __name__ == '__main__':

for i in spiders:

execute(i.split())

第二種,我們還可以使用自定義專案命令 commands_module 新增自己的命令完成執行。

在爬蟲檔案所屬的資料夾同級目錄下建立任意目錄,如command,在資料夾下建立命令檔案,如crawlall.py,此檔案的名稱就是我們自定義的命令。例子**如下

from scrapy.commands import scrapycommand

from scrapy.utils.project import get_project_settings

class command(scrapycommand):

requires_project = true

def run(self,args,opts):

spiders_list = self.crawler_process.spiders.list()

for name in spiders_list:

self.crawler_process.crawl(name,**opts.__dict__)

self.crawler_process.start()

在scrapy專案的配置檔案 settings.py 中新增  commands_module = '專案名稱.目錄名稱' 。至此命令新增完成,最後執行命令  scrapy *** 進行執行(此處的***就是上面建立的檔名,如 scrapy crawlall )。

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...

Scrapy爬蟲框架

scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動,並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊,以便之後引擎請求request時提供給引擎。4.spider。spider是scra...