Scrapy爬蟲的暫停和啟動

2022-01-16 17:43:31 字數 846 閱讀 3680

scrapy的每乙個爬蟲,暫停時可以記錄暫停狀態以及爬取了哪些url,重啟時可以從暫停狀態開始爬取過的url不在爬取

實現暫停與重啟記錄狀態

方法一:

1、首先cd進入到scrapy專案裡(當然你也可以通過編寫指令碼python檔案直接在pycharm中執行)

2、在scrapy專案裡建立儲存記錄資訊的資料夾

3、執行命令:

scrapy crawl 爬蟲名稱 -s jobdir=儲存記錄資訊的路徑

如:scrapy crawl cnblogs -s jobdir=zant/001執行命令會啟動指定爬蟲,並且記錄狀態到指定目錄

爬蟲已經啟動,我們可以按鍵盤上的ctrl+c停止爬蟲,停止後我們看一下記錄資料夾,會多出3個檔案,其中的requests.queue資料夾裡的p0檔案就是url記錄檔案,這個檔案存在就說明還有未完成的url,當所有url完成後會自動刪除此檔案

當我們重新執行命令:scrapy crawl cnblogs -s jobdir=zant/001  時爬蟲會根據p0檔案從停止的地方開始繼續爬取。

方法二:

在settings.py檔案裡加入下面的**: 

jobdir='

sharejs.com

'

使用命令scrapy crawl 爬蟲名,就會自動生成乙個sharejs.com的目錄,然後將工作列表放到這個資料夾裡 

Scrapy學習 17 暫停和重啟

scrapy爬蟲暫停和重啟 在當前專案下新建乙個用於儲存中間過程變數的目錄 注意不同的spider不能共用乙個目錄 同乙個spider每次執行時也必須使用新的目錄 mkdir job process 帶引數的命令啟動方式 1 scrapy crawl s jobdir job process 001...

Scrapy框架啟動多個爬蟲的方法

有的時候在抓取過程中可能會出現同乙個 相同資料在不同url裡有不同爬取方法的情況,所以這個時候需要編寫多個爬蟲,最開始是使用cmdline.execute scrapy crawl spider1 split 啟動爬蟲,但發現用這種方法執行多個最後真正抓取的只有第二個。from scrapy imp...

Scrapy爬蟲的嘗試

今天嘗試了一下使用scrapy框架來寫python的爬蟲。是根據scrapy的官方文件中的簡單的樣例修改的。嘗試了一下分析網頁,找出 中的所有的。首先定義了乙個item類 class imgitem scrapy.item src scrapy.field 之後是spider的類 import sc...