scrapy 建立 除錯

2022-05-17 05:46:40 字數 1315 閱讀 4556

如何建立scrapy專案?

輸入命令:

scrapy startproject project_name

在當前目錄下建立名字叫project_name的scrapy專案

命令格式:scrapy startproject 專案名

如何啟動官方提供的爬蟲模版?

進入project_name這個專案目錄下,輸入命令

srapy genspider blog i.cnblogs.com

命令格式:「srapy genspider 爬蟲模組名 網域名稱」

如何除錯scrapy專案?

在專案目錄下新建乙個start.py檔案,寫入:

#!/usr/bin/python3

from scrapy.cmdline import execute

if __name__ == '__main__':

execute(['scrapy', 'crawl', 'spider_name', '--nolog'])

在windows系統,會出現錯誤:no model win32 如何解決?

pip install pypiwin32

除錯時候注意點:

預設scrapy會讀取該網頁的robots協議,把遵守協議改成false

robotstxt_obey = true --> false

如何進行除錯?

scrapy shell   除錯**

scrapy shell

通過以下命令:

response

如果狀態200表示獲取頁面成功,通過response物件進行css或xpath除錯

response.css('#homepage1_homepagedays_dayslist_ctl00_daylist_titleurl_0::text').extract()

response.xpath("//a[@id='homepage1_homepagedays_dayslist_ctl00_daylist_titleurl_0']/text()").extract()

如何加入請求頭?

scrapy shell -s user-agent='省略'

url

scrapy爬蟲除錯

在scrapy框架執行時,除錯爬蟲是必不可少的一步,用於常規檢查爬蟲執行過程中item與介面返回值,主要操作如下 新建 debug.py檔案,寫入內容如下 from scrapy import cmdline name main scrapy的名稱 cmd scrapy crawl format n...

scrapy的除錯方法

parse命令,scrapy shell,logging 一 parse命令 檢查spider輸出的最基本方法是使用parse命令。這能讓你在函式層上檢查spider哥哥部分的效果,其十分靈活並且已用。不過不能在 中測試。二 scrapy shell 基本使用是配合view 檢視scapy拿到的資料...

建立scrapy專案

1.windows r開啟 cmd命令列工具,cd desktop 進入到桌面目錄 2.輸入建立專案命令 scrapy startproject 專案名 3.cd 到 專案目錄下 cd專案名 4.執行建立爬蟲的命令 scrapy genspider 爬蟲名 爬蟲起始 5.使用pycharm開啟專案,...