Scrapy常用命令

2022-04-22 18:10:20 字數 1647 閱讀 9231

fetch命令主要用來顯示爬蟲爬取的過程,如果在scrapy專案目錄之外使用該命令,則會呼叫scrapy預設的爬蟲來進行網頁的爬取,如果在scrapy的某個專案目錄內使用該命令,則會呼叫該專案中的爬蟲來進行網頁的爬取

--headers 控制顯示物件的爬蟲爬取**的頭資訊

--nolog 控制不顯示日誌資訊

--logfile==file 儲存日誌文字資訊

--spider=spider 控制使用哪個爬蟲

--loglevel=level控制日誌級別

日誌等級常見值:

critical   發生嚴重的錯誤

error      發生了必須立即處理的錯誤

warning        出現一些警告資訊

info                輸出一些提示資訊

debug            輸出一些除錯資訊,常用於開發階段

可以實現不依託scrapy的爬蟲專案,直接執行乙個爬蟲檔案

該命令還沒有理解,沒看到parse()函式的列印資訊

檢視scrapy對應的配置資訊,如果在專案目錄內使用,檢視的是對應專案的配置資訊,如果在專案外使用檢視的是scrapy預設配置資訊

shell命令可以啟動scrapy的互動終端,scrapy的互動終端經常在開發以及跳水的時候用到,使用scrapy的互動終端可以實現在不啟動scrapy爬蟲的情況下,對**響應進行除錯

可以看到在執行命令後會出現可以使用的scarpy物件及快捷命令

用於建立專案

scrapy startproject firstspider [parm]

通過version命令可以直接顯示scrapy的版本相關資訊

使用bench命令可以測試本地硬體的效能,當我們允許scrapy bench的時候,會建立乙個本地伺服器並且會以最大的速度爬行,再次為了測試本地硬體的效能,避免過多的因素的影響,所有僅進行連線跟進,不進行內容的處理

單純就硬體效能來說,顯示每分鐘大約能爬2400個網頁,這是乙個參考標準,在實際執行爬蟲專案的時候,會由於各種因素導致速度不同,一般來說,可以根據實際執行的速度與該參考速度進行對比結果,從而對爬蟲專案進行優化與改進

建立爬蟲檔案,可以使用該命令的-l引數來檢視當前可以使用的爬蟲模板

使用-t可以基於其中任意乙個爬蟲模板來生成乙個爬蟲檔案

這樣會在example/spiders/country_test目錄下生成country_test.py檔案

在scrapy中使用check命令實現對某個爬蟲檔案進行合同(contract)檢查

啟動某個爬蟲

scrapy crawl country_test --loglevel=debug

列出當前可以使用的爬蟲檔案

直接開啟對應編輯器對爬蟲檔案進行編輯

scrapy常用命令

scrapy startproject myfirst 建立乙個爬蟲專案 strapy startproject logfile tmp scrapy.log myfirst scrapy fetch 用例顯示爬蟲爬去的過程 scrapy runspider first.py 可以使用runspid...

Scrapy常用命令

1,新建乙個工程 scrapy startproject spider name 2,檢視當前專案內有多少爬蟲 scrapy list 3,view使用瀏覽器開啟網頁 scrapy view 4,startproject 語法 scrapy startproject 這個命令是scrapy最為常用的...

scrapy常用命令

1.建立乙個新專案 scrapy startproject myproject 2.在新專案中建立乙個新的spider檔案 scrapy genspider mydomain mydomain.com mydomain為spider檔名,mydomain.com為爬取 網域名稱 3.全域性命令 st...