scrapy 命令列操作

2021-10-08 05:03:04 字數 3546 閱讀 6346

1.建立專案

scrapy startproject myproject

cd myproject

2.建立爬蟲

scrapy genspider-t crawl myspider www.baidu.com----建立有rules配置

3.執行爬蟲

scrapy crawl myspider

4.錯誤檢查

scrapy check----檢查爬蟲的語法錯誤

5.列出爬蟲

scrapylist--返回專案裡spider名稱

6.測試網頁

scrapy fetch--nolog www.baidu.com----不會生成日誌

scrapy fetch--nolog--headers www.baidu.com--輸出headers

scrapy fetch--nolog--no-redirect---不會重定向

7.請求網頁 把網頁源**儲存成檔案,在用瀏覽器開啟(除錯工具)

8.命令列互動模式shell

request---請求的網頁

response--請求網頁的返回結果

response.text請求結果

response.headers--headers

view(response)---在網頁上開啟返回的結果(如果能顯示出來,說明是靜態網頁,能直接爬,如果沒顯示,說明是ajax載入的網頁)

response.xpath("")--用xpath解析網頁

9.解析網頁的內容

scrapy parse http://www.baidu.com-c parse---前面是parse方法,後面是callback呼叫解析的parse方法

10.獲取配置資訊

scrapy settings--get mongo_url---獲取配置資訊

11.執行spider檔案

scrapy runspider myspider.py---直接執行myspider檔案(引數是檔名稱)

12.輸出版本

scrapy version

scrapy version-v---輸出依賴庫的版本

13.測試

scrapy bench---測試爬行速度,反應當前執行效能

scrapy爬蟲》scrapy命令列操作

1.mysql資料庫 2.mongodb資料庫 3.redis資料庫 1.建立專案 scrapy startproject myproject cd myproject 2.建立爬蟲 scrapy genspider t crawl myspider www.baidu.com 建立有rules配置...

Scrapy 命令列工具

startproject 全域性命令 在當前路徑下建立乙個名為myproject的 scrapy專案 語法 scrapy startproject myproject genspider 需要專案 在當前專案中建立spider僅僅是建立spider的一種快捷方法,可以使用提前定義好的模板來生成spi...

常見scrapy命令列總結

1.scrapy startproject 建立新的爬蟲檔案 2.scrapy genspider www.com 必須在爬蟲檔案中建立 最基礎的模板 用crawl建立需要輸入scrapy genspider t crawl www.com 3.scrapy genspider l 可以列出所有模板...