跟著scrapy文件學爬蟲（2）

前面寫了一篇起步的跟著scrapy文件學爬蟲（1）

了，隔了好久才又過來需更了。

scrapy是通過scrapy命令列來進行控制的，這裡我們稱之為「scrapy tool」來區別子命令。對於子命令，我們直接稱之為「commands」或「scrapy commands」。

出於不同的需求，scrapy tool提供了許多命令，每條命令都接受一系列不同的引數和選項。

scrapy會在以下路徑中查詢 ini格式的scrapy.cfg引數配置檔案：

1. /etc/scrapy.cfg 或 c:\scrapy\scrapy.cfg （系統層面）

2. ~/.config/scrapy.cfg（$xdg_config_home）和 ~/.scrapy.cfg （$home）作為全域性配置（使用者層面）

3. scrapy.cg 內建在當前scrapy專案的根路徑下（專案層面）。

這些檔案裡的設定會按以下順序合併：使用者自定義優先順序高於系統層面配置（即2高於1），專案層面會覆蓋其它所有配置（即3高於1和2）。

*這裡提到的覆蓋是指同乙個條目在多個檔案中配置衝突了，會按照如此優先順序進行捨取，而非覆蓋所有。

scrapy還可以通過一些環節變數進行配置，例如：

scrapy的預設結構如下：

├── scrapy.cfg └── tutorial ├── __init__.py ├── items.py ├── middlewares.py ├── pipelines.py ├── __pycache__ ├── settings.py └── spiders ├── __init__.py └── __pycache__ └── spider1.py └── spider2.py

...

scrapy.cfg就是上面提到的專案級的配置檔案。該檔案中包含python模組名的字段，定義了專案的設定，例如：

[settings]
default = myproject.settings

跟著鬼哥學爬蟲 1

好久沒公開過破解的文章了，手上的東西都不太方便公開，所以寫一點程式設計方面的文章。工作需求，最近在爬一些資料，下面主要介紹一下採用的beartiful soup，這個python下的乙個很方便用作爬蟲的解析器。老規矩，簡單介紹一下初始化使用，然後開始用乙個個案例才熟悉它的用法。0x01 簡介 bea...

跟著鬼哥學爬蟲 2 糗事百科

bs4中最重要的就是資料的分類，解析，獲取過程。即 response urllib2.urlopen res html response.read soup beautifulsoup html,lxml somedata soup.select div.content span 這裡的soup.s...

scrapy爬蟲框架使用教程2

下文中提到的所有命令，均是在shell 俗稱黑視窗或命令列中輸入的當你已經搭建好python開發環境，並且安裝好scrapy框架後，就可以開始乙個爬蟲專案了新建專案命令如下 scrapy startproject myfirstproject 此命令缺省會在當前目錄下建立乙個名為myfires...

跟著scrapy文件學爬蟲（2）

跟著鬼哥學爬蟲 1

跟著鬼哥學爬蟲 2 糗事百科

scrapy爬蟲框架使用教程2

相關推薦