對於scrapy的settings的使用

2021-10-09 13:21:39 字數 1213 閱讀 4147

#concurrent_requests_per_domain = 16  # 對單個**進行併發請求的最大值

#concurrent_requests_per_ip = 16  #對單個ip進行併發請求的最大值

#cookies_enabled = false

#telnetconsole_enabled = false

#spider_middlewares =

#**********_middlewares =

#啟用或禁用擴充套件程式

httperror_allowed_codes = [302,403,301]#忽略狀態碼

暫停和恢復爬蟲

初學者最頭疼的事情就是沒有處理好異常,當爬蟲爬到一半的時候突然因為錯誤而中斷了,但是這時又不能從中斷的地方開始繼續爬,頓時感覺心裡日了狗,但是這裡有乙個方法可以暫時的儲存你爬的狀態,當爬蟲中斷的時候繼續開啟後依然可以從中斷的地方爬,不過雖說持久化可以有效的處理,但是要注意的是當使用cookie臨時的模擬登入狀態的時候要注意cookie的有效期

只需要在setting.py中job_dir=file_name 其中填的是你的檔案目錄,注意這裡的目錄不允許共享,只能儲存單獨的乙個spdire的執行狀態,如果你不想在從中斷的地方開始執行,只需要將這個資料夾刪除即可

當然還有其他的放法:scrapy crawl somespider -s jobdir=crawls/somespider-1,這個是在終端啟動爬蟲的時候呼叫的,可以通過ctr+c中斷,恢復還是輸入上面的命令

scrapy的安裝,scrapy建立專案

簡要 scrapy的安裝 1 pip install scrapy i 國內源 一步到位 2 報錯1 building twisted.test.raiser extension error microsoft visual c 14.0 is required.get it with micros...

Scrapy爬蟲的嘗試

今天嘗試了一下使用scrapy框架來寫python的爬蟲。是根據scrapy的官方文件中的簡單的樣例修改的。嘗試了一下分析網頁,找出 中的所有的。首先定義了乙個item類 class imgitem scrapy.item src scrapy.field 之後是spider的類 import sc...

Scrapy框架的流程

那麼 scrapy是如何幫助我們抓取資料的呢?scrapy框架的工作流程 1.首先spiders 爬蟲 將需要傳送請求的url requests 經scrapyengine 引擎 交給scheduler 排程器 2.scheduler 排序,入隊 處理後,經scrapyengine,middlewa...