Scrapy爬蟲框架學習

2021-09-20 05:04:36 字數 1086 閱讀 6149

目錄

五大模組

**********

spider

itempipeline

schedule

engine

四個配置引數

三個物件

常用屬性

常用方法

response

常用屬性

常用方法

item

兩類中介軟體

**********middleware

spidermiddleware

解析html,產生爬取請求和資料

流水線處理資料,清理、檢驗、查重、儲存

對爬取請求進行排程

控制資料流,根據事件觸發對應的模組

名稱用途

預設值concurrent_requests

32concurrent_items

併發item處理

100concurrent_requests_per_domain

8concurrent_requests_per_ip

0代表乙個http請求

屬性含義

.url

請求的位址

.method

"get" or "post"

.headers

請求頭,以字典形式組織

.body

請求主體,以字串形式組織

.meta

使用者新增的擴充套件資訊

.copy():給出該物件的乙個複製

代表乙個http響應

屬性含義

.url

http請求的url

.status

響應的狀態碼

.headers

響應的頭部資訊

.body

響應的主體資訊,以字串形式組織

.flags

一組標記

.request

對應的http請求

.copy():給出該物件的乙個復刻

包含資訊的字典物件

修改、丟棄、新增請求或響應

對請求和爬取項進行再處理

Scrapy框架爬蟲學習 3

繼上一節課爬取到了資料之後,這一節將資料入庫。因為python自帶了sqlite seklait 資料庫,直接用就可以。1.新建 sqlite 資料庫 在pycharm下進入terml,然後進入ipython模式,之後 import sqlite3 zufang sqlite3.connect zu...

爬蟲scrapy框架學習(三)

3.示例2redisspider a.使用方法 它與示例1只有乙個地方不同,就是將start url存入redis中,如下 b.總結 該示例很簡單,只是將start url存入redis key中,就可實現分布式爬蟲,多台電腦共同完成乙個爬蟲,資料不會重複 4.示例3rediscrawlspider...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...