跟著scrapy文件學爬蟲(2)

2021-08-31 00:20:23 字數 1103 閱讀 9888

前面寫了一篇起步的跟著scrapy文件學爬蟲(1)

了,隔了好久才又過來需更了。

scrapy是通過scrapy命令列來進行控制的,這裡我們稱之為「scrapy tool」來區別子命令。對於子命令,我們直接稱之為「commands」或「scrapy commands」。

出於不同的需求,scrapy tool提供了許多命令,每條命令都接受一系列不同的引數和選項。

scrapy會在以下路徑中查詢 ini格式的scrapy.cfg引數配置檔案:

1. /etc/scrapy.cfg 或 c:\scrapy\scrapy.cfg (系統層面)

2. ~/.config/scrapy.cfg($xdg_config_home) 和 ~/.scrapy.cfg ($home)作為全域性配置(使用者層面)

3. scrapy.cg 內建在當前scrapy專案的根路徑下(專案層面)。

這些檔案裡的設定會按以下順序合併:使用者自定義優先順序高於系統層面配置(即2高於1),專案層面會覆蓋其它所有配置(即3高於1和2)。

*這裡提到的覆蓋是指同乙個條目在多個檔案中配置衝突了,會按照如此優先順序進行捨取,而非覆蓋所有。

scrapy還可以通過一些環節變數進行配置,例如:

scrapy的預設結構如下:

├── scrapy.cfg

└── tutorial

├── __init__.py

├── items.py

├── middlewares.py

├── pipelines.py

├── __pycache__

├── settings.py

└── spiders

├── __init__.py

└── __pycache__

└── spider1.py

└── spider2.py

...

scrapy.cfg就是上面提到的專案級的配置檔案。該檔案中包含python模組名的字段,定義了專案的設定,例如:

[settings]

default = myproject.settings

跟著鬼哥學爬蟲 1

好久沒公開過破解的文章了,手上的東西都不太方便公開,所以寫一點程式設計方面的文章。工作需求,最近在爬一些資料,下面主要介紹一下採用的beartiful soup,這個python下的乙個很方便用作爬蟲的解析器。老規矩,簡單介紹一下初始化使用,然後開始用乙個個案例才熟悉它的用法。0x01 簡介 bea...

跟著鬼哥學爬蟲 2 糗事百科

bs4中最重要的就是資料的分類,解析,獲取過程。即 response urllib2.urlopen res html response.read soup beautifulsoup html,lxml somedata soup.select div.content span 這裡的soup.s...

scrapy爬蟲框架使用教程2

下文中提到的所有命令,均是在shell 俗稱黑視窗或命令列中 輸入的 當你已經搭建好python開發環境,並且安裝好scrapy框架後,就可以開始乙個爬蟲專案了 新建專案命令如下 scrapy startproject myfirstproject 此命令缺省會在當前目錄下建立乙個名為myfires...