對於scrapy的settings的使用

#concurrent_requests_per_domain = 16　　# 對單個**進行併發請求的最大值

#concurrent_requests_per_ip = 16　　#對單個ip進行併發請求的最大值

#cookies_enabled = false

#telnetconsole_enabled = false

#spider_middlewares =

#**********_middlewares =

#啟用或禁用擴充套件程式

httperror_allowed_codes = [302,403,301]#忽略狀態碼

暫停和恢復爬蟲

初學者最頭疼的事情就是沒有處理好異常，當爬蟲爬到一半的時候突然因為錯誤而中斷了，但是這時又不能從中斷的地方開始繼續爬，頓時感覺心裡日了狗，但是這裡有乙個方法可以暫時的儲存你爬的狀態，當爬蟲中斷的時候繼續開啟後依然可以從中斷的地方爬，不過雖說持久化可以有效的處理，但是要注意的是當使用cookie臨時的模擬登入狀態的時候要注意cookie的有效期

只需要在setting.py中job_dir=file_name 其中填的是你的檔案目錄，注意這裡的目錄不允許共享，只能儲存單獨的乙個spdire的執行狀態，如果你不想在從中斷的地方開始執行，只需要將這個資料夾刪除即可

當然還有其他的放法：scrapy crawl somespider -s jobdir=crawls/somespider-1，這個是在終端啟動爬蟲的時候呼叫的，可以通過ctr+c中斷，恢復還是輸入上面的命令

對於scrapy的settings的使用

scrapy的安裝，scrapy建立專案

Scrapy爬蟲的嘗試

Scrapy框架的流程

對於scrapy的settings的使用

scrapy的安裝，scrapy建立專案

Scrapy爬蟲的嘗試

Scrapy框架的流程

相關推薦