Python爬蟲 scrapy定時執行的指令碼

2021-09-23 06:04:30 字數 1041 閱讀 2338

由於伺服器的crontab莫名掛掉了,還沒找到解決的辦法,於是找了另乙個方法

原理:1個程序 -> 多個子程序 -> scrapy程序

將以下**檔案放入scrapy專案中任意位置即可

from multiprocessing import process

from scrapy import cmdline

import time

import logging

# 配置引數即可, 爬蟲名稱,執行頻率,每300秒執行一次

confs =[,

]def

start_spider

(spider_name, frequency)

: args =

["scrapy"

,"crawl"

, spider_name]

while

true

: start = time.time(

) p = process(target=cmdline.execute, args=

(args,))

p.start(

) p.join(

) logging.debug(

"### use time: %s"

%(time.time(

)- start)

) time.sleep(frequency)

if __name__ ==

'__main__'

:for conf in confs:

process = process(target=start_spider,

args=

(conf[

"spider_name"

], conf[

"frequency"])

) process.start(

) time.sleep(

10)

**:

Python爬蟲 scrapy框架

開源的,對平台的爬蟲框架 舊版本 需要預先定義所需欄位 class myitem scrapy.item url scrapy.field 再將所需欄位填充 class myspier scrapy.spider defparse self,response return sudo apt inst...

python爬蟲scrapy框架

安裝 pip install scrapy startproject 建立乙個新專案 genspider 根據模板生成乙個新爬蟲 crawl 執行爬蟲 shell 啟動互動式抓取控制台 進入專案目錄 scrapy startproject crawlertest project name cd cr...

Python爬蟲 Scrapy基礎

依照順序安裝如下依賴庫,如下 wheel pip install wheel lxml pyopenssl twisted pywin32 220 scrapy pip install scrapy 安裝成功後,通過在cmd的指定路徑下輸入 scrapy startproject hello可以在當...