scrapy 常用命 令

2022-04-03 00:56:14 字數 1337 閱讀 8697

原文:

終端命令

建立乙個專案: scrapy startproject name

利用蜘蛛名建立乙個py檔案: scrapy genspider name domain.name

在終端執行:scrapy shell url 得到response

利用蜘蛛名進行相對應的執行: scrapy crawl name

利用py檔案進行執行: scrapy

將爬區下來的資料儲存到csv檔案: scrapy crawl name -o file.csv

將爬區下來的資料儲存到json lines檔案:scrapy crawl name -o file.jl

將爬區下來的資料儲存到json檔案:scrapy crawl name -o file.json

編寫過程
先建立乙個爬蟲專案

將要爬去的目標在items.py檔案中先定義好

然後在去spider中的py檔案進行編寫成程式

然後在去pipelines.py檔案中進行資料的儲存

要使用管道,那麼就要開啟管道,到settings.py檔案中開始管道

在setting.py中設定為false就是不遵循robots.txt協議:robotstxt_obey = false

執行爬蟲程式

提取資料
extract() : 獲取選擇器物件中的文字內容

response.xpath('...') 得到選擇器物件(節點所有內容) [

response.xpath('.../text()') 得到選擇器物件(節點文字)

extract() : 把選擇器物件中的文字取出來 ['文字內容']

如何將scrapy爬取到的資料儲存到資料庫
mongo 啟動mongodb服務

mongo 進入mongodb shell

先到settings.py檔案中的item_pipelines下面設定mongodb_host,mongodb_port,

mongodb_dbname, mongodb_sheetname.

然後在傳入乙個user_agent

scrapy爬取的資料快快速儲存到本地

scrapy crawl spider -o filename.json/csv  這樣在終端裡輸入,定義你的檔案格式與name

模擬登入

headers 可以直接寫在裡面

formdata 裡面存放要登入的資訊

scrapy常用命令

scrapy startproject myfirst 建立乙個爬蟲專案 strapy startproject logfile tmp scrapy.log myfirst scrapy fetch 用例顯示爬蟲爬去的過程 scrapy runspider first.py 可以使用runspid...

Scrapy常用命令

1,新建乙個工程 scrapy startproject spider name 2,檢視當前專案內有多少爬蟲 scrapy list 3,view使用瀏覽器開啟網頁 scrapy view 4,startproject 語法 scrapy startproject 這個命令是scrapy最為常用的...

scrapy常用命令

1.建立乙個新專案 scrapy startproject myproject 2.在新專案中建立乙個新的spider檔案 scrapy genspider mydomain mydomain.com mydomain為spider檔名,mydomain.com為爬取 網域名稱 3.全域性命令 st...