爬蟲日記 14 scrapy的命令列工具

2021-10-22 05:58:34 字數 605 閱讀 1903

由於編寫爬蟲,一般情況下不會從頭寫乙個,因為那樣做效率低下,需要重複地寫相同的內容,並且還容易出錯,所以scrapy提供了乙個快速開發的環境,就是通過命令列就可以生成乙個爬蟲的框架,只需要修改個性化的地方就可以生成新的爬蟲了。因此,我們需要了解scrapy的命令列工具,才可以掌握scrapy的開發,才可以快速完成自己的工作。如果對scrapy的命令列工具不懂,就像乙個小孩子還不會走路,就想跑,遲早都會摔跤。

scrapy是通過 scrapy 命令列工具進行控制的。 這裡我們稱之為 「scrapy tool」 以用來和子命令進行區分。 對於子命令,我們稱為 「command」 或者 「scrapy commands」。scrapy tool 針對不同的目的提供了多個命令,每個命令支援不同的引數和選項。

配置引數

scrapy 在啟動時候會從系統裡指定的目錄讀取引數,這些引數會儲存在乙個像ini型別的檔案裡,它叫做scrapy.cfg。

這個檔案可以在三個地方儲存:

1)/etc/scrapy.cfg 或 c:\scrapy\scrapy.cfg,這個是系統級的配置引數,也就是說在這個地方修改的引數,整個系統裡的爬蟲都會影響。

2)~/.config/scrapy.cfg ($xdg_config_

scrapy爬蟲》scrapy命令列操作

1.mysql資料庫 2.mongodb資料庫 3.redis資料庫 1.建立專案 scrapy startproject myproject cd myproject 2.建立爬蟲 scrapy genspider t crawl myspider www.baidu.com 建立有rules配置...

爬蟲 Scrapy常用命令

命令 說明格式 startproject 建立乙個新工程 scrapy startproject dir genspider 建立乙個爬蟲 scrapy genspider options settings 獲得爬蟲配置資訊 scrapy settings options crawl 執行乙個爬蟲 ...

Scrapy爬蟲的嘗試

今天嘗試了一下使用scrapy框架來寫python的爬蟲。是根據scrapy的官方文件中的簡單的樣例修改的。嘗試了一下分析網頁,找出 中的所有的。首先定義了乙個item類 class imgitem scrapy.item src scrapy.field 之後是spider的類 import sc...