scrapy爬蟲除錯

2021-09-24 21:03:59 字數 443 閱讀 2021

在scrapy框架執行時,除錯爬蟲是必不可少的一步,用於常規檢查爬蟲執行過程中item與介面返回值,主要操作如下:

新建 debug.py檔案,寫入內容如下:

from scrapy import cmdline

name = 'main' # scrapy的名稱

cmd = 'scrapy crawl '.format(name)

cmdline.execute(cmd.split())

主要利用scrapy中的cmdline工具,跟蹤爬蟲執行的過程。但是有個容易被忽略的問題,即:

在python3中,該debug.py檔案的位置必須與scrapy.cfg位置保持一致!

即在工程的根目錄下才能模擬正常執行爬蟲時的指令:scrapy crawl main

如何實現在scrapy除錯爬蟲

coding utf 8 from scrapy.cmdline import execute import sysimport os 在爬蟲資料夾下面自定義乙個main.py的檔案 file 指的是當前main.py檔案 os.path.abspath file 獲取當前main.py檔案所在路徑...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...