Scrapy常用命令

fetch命令主要用來顯示爬蟲爬取的過程，如果在scrapy專案目錄之外使用該命令，則會呼叫scrapy預設的爬蟲來進行網頁的爬取，如果在scrapy的某個專案目錄內使用該命令，則會呼叫該專案中的爬蟲來進行網頁的爬取

--headers 控制顯示物件的爬蟲爬取**的頭資訊

--nolog 控制不顯示日誌資訊

--logfile==file 儲存日誌文字資訊

--spider=spider 控制使用哪個爬蟲

--loglevel=level控制日誌級別

日誌等級常見值：

critical 　　發生嚴重的錯誤

error 　　發生了必須立即處理的錯誤

warning 出現一些警告資訊

info 輸出一些提示資訊

debug 輸出一些除錯資訊，常用於開發階段

可以實現不依託scrapy的爬蟲專案，直接執行乙個爬蟲檔案

該命令還沒有理解，沒看到parse()函式的列印資訊

檢視scrapy對應的配置資訊，如果在專案目錄內使用，檢視的是對應專案的配置資訊，如果在專案外使用檢視的是scrapy預設配置資訊

shell命令可以啟動scrapy的互動終端，scrapy的互動終端經常在開發以及跳水的時候用到，使用scrapy的互動終端可以實現在不啟動scrapy爬蟲的情況下，對**響應進行除錯

可以看到在執行命令後會出現可以使用的scarpy物件及快捷命令

用於建立專案

scrapy startproject firstspider [parm]

通過version命令可以直接顯示scrapy的版本相關資訊

使用bench命令可以測試本地硬體的效能，當我們允許scrapy bench的時候，會建立乙個本地伺服器並且會以最大的速度爬行，再次為了測試本地硬體的效能，避免過多的因素的影響，所有僅進行連線跟進，不進行內容的處理

單純就硬體效能來說，顯示每分鐘大約能爬2400個網頁，這是乙個參考標準，在實際執行爬蟲專案的時候，會由於各種因素導致速度不同，一般來說，可以根據實際執行的速度與該參考速度進行對比結果，從而對爬蟲專案進行優化與改進

建立爬蟲檔案，可以使用該命令的-l引數來檢視當前可以使用的爬蟲模板

使用-t可以基於其中任意乙個爬蟲模板來生成乙個爬蟲檔案

這樣會在example/spiders/country_test目錄下生成country_test.py檔案

在scrapy中使用check命令實現對某個爬蟲檔案進行合同（contract）檢查

啟動某個爬蟲

scrapy crawl country_test --loglevel=debug

列出當前可以使用的爬蟲檔案

直接開啟對應編輯器對爬蟲檔案進行編輯