Scrapy爬蟲框架下執行爬蟲的方法

在使用scrapy框架進行爬蟲時，執行爬蟲檔案的方法是 scrapy crawl *** ，其中 *** 是爬蟲檔名。

但是，當我們在建立了多個檔案時，使用上面的命令時會比較繁瑣麻煩，我們就可以使用下述方法同時完成爬蟲檔案的執行。

第一種，在scrapy框架下建立乙個執行檔案，如 run.py ，在檔案中建立乙個列表，列表為爬蟲的執行命令，最後通過迴圈執行 execute() 函式完成執行。執行時使用 python run.py 命令即可。如下面的**所示

from scrapy.cmdline import execute
''''''
spiders = [
'scrapy crawl liepin',
'scrapy crawl lagou'] 
if __name__ == '__main__':
for i in spiders:
execute(i.split())

第二種，我們還可以使用自定義專案命令 commands_module 新增自己的命令完成執行。

在爬蟲檔案所屬的資料夾同級目錄下建立任意目錄，如command，在資料夾下建立命令檔案，如crawlall.py，此檔案的名稱就是我們自定義的命令。例子**如下

from scrapy.commands import scrapycommand
from scrapy.utils.project import get_project_settings
class command(scrapycommand):
requires_project = true
def run(self,args,opts):
spiders_list = self.crawler_process.spiders.list()
for name in spiders_list:
self.crawler_process.crawl(name,**opts.__dict__)
self.crawler_process.start()

在scrapy專案的配置檔案 settings.py 中新增 commands_module = '專案名稱.目錄名稱' 。至此命令新增完成，最後執行命令 scrapy *** 進行執行(此處的***就是上面建立的檔名，如 scrapy crawlall )。

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後，深入學習了一下scrapy這個爬蟲框架，現將一些基本知識和總結整理一下，以備後查。2.scrapy的命令列使用這部分網上很多部落格都有總結，不需要背，理解會用主要的命令 startproject crawl fetch list genspider.即可，...

scrapy 爬蟲框架

1.安裝公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱執行此命令,可以生成乙個爬蟲專案會預先生成...

Scrapy爬蟲框架

scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動，並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊，以便之後引擎請求request時提供給引擎。4.spider。spider是scra...

Scrapy爬蟲框架下執行爬蟲的方法

scrapy爬蟲框架

scrapy 爬蟲框架

Scrapy爬蟲框架

相關推薦