如何實現在scrapy除錯爬蟲

2022-08-17 09:48:12 字數 497 閱讀 7032

#

-*- coding:utf-8 -*-

from scrapy.cmdline import

execute

import

sysimport

os

'''

在爬蟲資料夾下面自定義乙個main.py的檔案

__file__指的是當前main.py檔案

os.path.abspath(__file__)獲取當前main.py檔案所在路徑

os.path.dirname(os.path.abspath(__file__))獲取的是當前資料夾的父目錄的路徑,也就是爬蟲檔案的目錄

execute裡面的引數是要除錯的爬蟲

執行main.py就可以在pycharm中除錯程式了

'''

'

scrapy

', '

crawl

', 'myspidername

'])

scrapy爬蟲除錯

在scrapy框架執行時,除錯爬蟲是必不可少的一步,用於常規檢查爬蟲執行過程中item與介面返回值,主要操作如下 新建 debug.py檔案,寫入內容如下 from scrapy import cmdline name main scrapy的名稱 cmd scrapy crawl format n...

scrapy如何實現分布式爬蟲

使用scrapy爬蟲的時候,記錄一下如何分布式爬蟲問題 關鍵在於多台主機協作的關鍵 共享爬蟲佇列 主機 維護爬取佇列 從機 負責資料抓取,資料處理,資料儲存 佇列如何維護 redis佇列 redis 非關係型資料庫,key value形式儲存,結構靈活。是記憶體中的資料結構儲存系統,處理速度快,效能...

scrapy實現去重爬蟲

第一種 使用set 來去重只適合單次爬取 匯入異常處理模組 from scrapy.exceptions import dropitem class spidernamepipeline object def init self 建立構造方法 self.title set 定義集合 defproce...