scrapy爬蟲》scrapy命令列操作

1.mysql資料庫

2.mongodb資料庫

3.redis資料庫

1.建立專案

scrapy startproject myproject

cd myproject

2.建立爬蟲

scrapy genspider -t crawl myspider www.baidu.com----建立有rules配置

3.執行爬蟲

scrapy crawl myspider

4.錯誤檢查

scrapy check ----檢查爬蟲的語法錯誤

5.列出爬蟲

scrapy list --返回專案裡spider名稱

6.測試網頁

scrapy fetch --nolog www.baidu.com ----不會生成日誌

scrapy fetch --nolog --headers www.baidu.com --輸出headers

scrapy fetch --nolog --no-redirect---不會重定向

7.請求網頁把網頁源**儲存成檔案,在用瀏覽器開啟(除錯工具)

scrapy view

8.命令列互動模式shell

scrapy shell

request---請求的網頁

response--請求網頁的返回結果

response.text請求結果

response.headers--headers

view(response)---在網頁上開啟返回的結果(如果能顯示出來,說明是靜態網頁,能直接爬,如果沒顯示,說明是ajax載入的網頁)

response.xpath("")--用xpath解析網頁

9.解析網頁的內容

scrapy parse -c parse ---前面是parse方法,後面是callback呼叫解析的parse方法

10.獲取配置資訊

scrapy settings --get mongo_url---獲取配置資訊

11.執行spider檔案

scrapy runspider myspider.py---直接執行myspider檔案(引數是檔名稱)

12.輸出版本

scrapy version

scrapy version -v---輸出依賴庫的版本

13.測試

scrapy bench---測試爬行速度,反應當前執行效能

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後，深入學習了一下scrapy這個爬蟲框架，現將一些基本知識和總結整理一下，以備後查。2.scrapy的命令列使用這部分網上很多部落格都有總結，不需要背，理解會用主要的命令 startproject crawl fetch list genspider.即可，...

scrapy 爬蟲框架

1.安裝公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱執行此命令,可以生成乙個爬蟲專案會預先生成...

爬蟲安裝scrapy

scrapy框架結構清晰，基於twisted的非同步架構可以充分利用計算機資源，是爬蟲做大的必備基礎。本文將講解如何快速安裝此框架並使用起來。2.1 同安裝lxml庫 2.2 安裝twisted 開啟命令提示符視窗，輸入命令 twisted庫安裝成功後，安裝scrapy就簡單了，在命令提示符視窗直接...

scrapy爬蟲》scrapy命令列操作

scrapy爬蟲框架

scrapy 爬蟲框架

爬蟲安裝scrapy

相關推薦