python爬蟲之Scrapy介紹三 文件介紹

2021-10-07 14:31:22 字數 4499 閱讀 5458

2019-01

-1909:

50:48[scrapy.utils.log] info: scrapy 1.5

.1 started (bot: tencent)

### 爬⾍ scrpay 框架依賴的相關模組和平台的資訊

2019-01

-1909:

50:48[scrapy.utils.log] info: versions:lxml 4.2

.5.0

,libxml2 2.9

.5, cssselect 1.0

.3, parsel 1.5

.0, w3lib 1.19

.0, twisted 18.9

.0, python 3.6

.5(v3.

6.5:f59c0932b4, mar 28

2018,17

:00:18

)[msc v.

1900

64 bit (amd64)

], pyopenssl 18.0

.0(openssl 1.1

.0i 14 aug 2018

), cryptography 2.3

.1, platform windows-10-

10.0

.17134

-sp0

### ⾃定義的配置資訊哪些被應⽤了

2019-01

-1909:

50:48[scrapy.crawler] info: overridden settings:

### 外掛程式資訊

]### 啟動的爬⾍中介軟體

]### 啟動的管道

2019-01

-1909:

50:48[scrapy.middleware] info: enabled item pipelines:

['tencent.pipelines.tencentpipeline'

]### 開始爬去資料

2019-01

-1909:

50:48[scrapy.core.engine] info: spider opened

2019-01

-1909:

50:48[scrapy.extensions.logstats] info: crawled 0 pages (at 0 pages/

min)

, scraped 0 items (at 0 items/

min)

2019-01

-1909:

50:48[scrapy.extensions.telnet] debug: telnet console listening on 127.0

.0.1

:6023

### 抓取 robots 協議內容

2019-01

-1909:

50:51[scrapy.core.engine] debug: crawled (

200)

>

(referer:

none

)### start_url 發起請求

2019-01

-1909:

50:51[scrapy.core.engine] debug: crawled (

200)

#a0> (referer: none)

## 提示錯誤,爬⾍中通過 yeid 交給引擎的請求會經過爬⾍中介軟體,由於請求的 url 超出 allowed_domain 的範圍,被 offsitmiddleware 攔截了

2019-01

-1909:

50:51[scrapy.spidermiddlewares.offsite] debug: filtered offsite request to 'hr.tencent.com'

:>

### 爬⾍關閉

2019-01

-1909:

50:51[scrapy.core.engine] info: closing spider (finished)

### 本次爬⾍的資訊統計

2019-01

-1909:

50:51[scrapy.statscollectors] info: dumping scrapy stats:

2019-01

-1909:

50:51[scrapy.core.engine] info: spider closed (finished)

scrapy shell是⼀個互動終端,我們可以在未啟動spider的情況下嘗試及除錯**,也可以⽤來測試xpath表示式

使用方法(終端開啟):

scrapy shell

response.url: 當前相應的 url 位址

response.request.url: 當前相應的請求的 url 位址

response.headers: 響應頭

response.body: 響應體,也就是 html **,預設是 byte 型別

response.requests.headers: 當前響應的請求頭

(1)什麼是配置檔案:scrapy設定(settings)提供了定製scrapy元件的方法。你可以控制包括核心(core),外掛程式(extension),pipeline及spider元件。設定為**提供了提取以key-value對映的配置值的的全域性命名空間(namespace)。

(2)為什麼需要配置檔案:配置檔案存放⼀些公共的變數(比如資料庫的位址,賬號密碼等),方便別人和自己修改,⼀般用全大寫字母命名變數名 sql_host = 『192.168.0.1』

(3)設定介紹

參考和學習:scrapy學習篇(八)之settings

注意: scrapy預設base設定,一般不要嘗試去修改

Python之scrapy框架爬蟲

scrapy命令詳解 可能是如今最全最簡單的scrapy命令解釋 明天上班,又要爬 現在每天做的工作有50 的時間爬 40 的時間清理資料,10 寫報告。若想自學資料分析,側重點很重要,我當初把大部分經歷放在了python的pandas numpymatplotlib上面,其他時間一部分放在sql身...

python爬蟲框架之Scrapy

scrapy 是乙個爬蟲框架,提取結構性的資料。其可以應用在資料探勘,資訊處理等方面。提供了許多的爬蟲的基類,幫我們更簡便使用爬蟲。基於twisted 準備步驟 首先安裝依賴庫twisted 在這個 下面去尋找符合你的python版本和系統版本的twisted pip install 依賴庫的路徑 ...

python爬蟲scrapy之rules的基本使用

link extractors 是那些目的僅僅是從網頁 scrapy.http.response物件 中抽取最終將會被follow鏈結的物件 scrapy預設提供2種可用的 link extractor,但你通過實現乙個簡單的介面建立自己定製的link extractor來滿足需求 每個linkex...