scrapy爬蟲》scrapy命令列操作

2022-05-22 22:39:10 字數 1307 閱讀 9455

1.mysql資料庫

2.mongodb資料庫

3.redis資料庫

1.建立專案

scrapy startproject myproject

cd myproject

2.建立爬蟲

scrapy genspider -t crawl myspider www.baidu.com----建立有rules配置

3.執行爬蟲

scrapy crawl myspider

4.錯誤檢查

scrapy check ----檢查爬蟲的語法錯誤

5.列出爬蟲

scrapy list --返回專案裡spider名稱

6.測試網頁

scrapy fetch --nolog www.baidu.com ----不會生成日誌

scrapy fetch --nolog --headers www.baidu.com --輸出headers

scrapy fetch --nolog --no-redirect---不會重定向

7.請求網頁 把網頁源**儲存成檔案,在用瀏覽器開啟(除錯工具)

scrapy view

8.命令列互動模式shell

scrapy shell

request---請求的網頁

response--請求網頁的返回結果

response.text請求結果

response.headers--headers

view(response)---在網頁上開啟返回的結果(如果能顯示出來,說明是靜態網頁,能直接爬,如果沒顯示,說明是ajax載入的網頁)

response.xpath("")--用xpath解析網頁

9.解析網頁的內容

scrapy parse -c parse ---前面是parse方法,後面是callback呼叫解析的parse方法

10.獲取配置資訊

scrapy settings --get mongo_url---獲取配置資訊

11.執行spider檔案

scrapy runspider myspider.py---直接執行myspider檔案(引數是檔名稱)

12.輸出版本

scrapy version

scrapy version -v---輸出依賴庫的版本

13.測試

scrapy bench---測試爬行速度,反應當前執行效能

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...

爬蟲安裝scrapy

scrapy框架結構清晰,基於twisted的非同步架構可以充分利用計算機資源,是爬蟲做大的必備基礎。本文將講解如何快速安裝此框架並使用起來。2.1 同安裝lxml庫 2.2 安裝twisted 開啟命令提示符視窗,輸入命令 twisted庫安裝成功後,安裝scrapy就簡單了,在命令提示符視窗直接...