Scrapy爬蟲框架學習

五大模組

**********

spider

itempipeline

schedule

engine

四個配置引數

三個物件

常用屬性

常用方法

response

常用屬性

常用方法

item

兩類中介軟體

**********middleware

spidermiddleware

解析html，產生爬取請求和資料

流水線處理資料，清理、檢驗、查重、儲存

對爬取請求進行排程

控制資料流，根據事件觸發對應的模組

名稱用途

預設值concurrent_requests

32concurrent_items

併發item處理

100concurrent_requests_per_domain

8concurrent_requests_per_ip

0代表乙個http請求

屬性含義

.url

請求的位址

.method

"get" or "post"

.headers

請求頭，以字典形式組織

.body

請求主體，以字串形式組織

.meta

使用者新增的擴充套件資訊

.copy():給出該物件的乙個複製

代表乙個http響應

屬性含義

.url

http請求的url

.status

響應的狀態碼

.headers

響應的頭部資訊

.body

響應的主體資訊，以字串形式組織

.flags

一組標記

.request

對應的http請求

.copy():給出該物件的乙個復刻

包含資訊的字典物件

修改、丟棄、新增請求或響應

對請求和爬取項進行再處理

Scrapy框架爬蟲學習 3

繼上一節課爬取到了資料之後，這一節將資料入庫。因為python自帶了sqlite seklait 資料庫，直接用就可以。1.新建 sqlite 資料庫在pycharm下進入terml，然後進入ipython模式，之後 import sqlite3 zufang sqlite3.connect zu...

爬蟲scrapy框架學習（三）

3.示例2redisspider a.使用方法它與示例1只有乙個地方不同，就是將start url存入redis中，如下 b.總結該示例很簡單，只是將start url存入redis key中，就可實現分布式爬蟲，多台電腦共同完成乙個爬蟲，資料不會重複 4.示例3rediscrawlspider...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後，深入學習了一下scrapy這個爬蟲框架，現將一些基本知識和總結整理一下，以備後查。2.scrapy的命令列使用這部分網上很多部落格都有總結，不需要背，理解會用主要的命令 startproject crawl fetch list genspider.即可，...

Scrapy爬蟲框架學習

Scrapy框架爬蟲學習 3

爬蟲scrapy框架學習（三）

scrapy爬蟲框架

相關推薦