爬蟲學習 Scrapy框架學習(四)

2021-09-26 01:41:42 字數 1322 閱讀 2771

接之前的部落格內容

1、建立乙個工程和spider模板;

2、編寫spider;

3、編寫item pipeline;

4、優化配置策略

1、reqeust類(向網路中提交請求的內容)

request物件表示乙個http請求;由spider生成,由**********執行

屬性或方法    |||                   說明

.url                      request對應的請求url位址

.method              對應的請求方法,'get' 'post'等

.headers             字典型別風格的請求頭

.body                   請求內容主體,字串型別

.meta                   使用者新增的擴充套件資訊,在scrapy內部模組間傳遞資訊使用

.copy()                 複製該請求

2、response類(從網路中爬取內容的封裝類)

response物件表示乙個http請求;由**********生成,由spider處理

屬性或方法       |||                       說明

.url                        response對應的url位址

.status                   http狀態碼,預設是200

.headers                response對應的頭部資訊

.body                      response對應的內容資訊,字串型別

.flags                       一組標記

.request                   產生response型別對應的request物件

.copy()                     複製該響應

3、item類(由spider產生的資訊封裝的類)

class scrapy.item.item()

item物件表示乙個從html頁面中提取的資訊內容;由spider生成,由item pipeline處理

item類似字典型別,可以按照字典型別操作

①beautiful soup;②lxml;③re;④xpath selector;⑤css selector

基本使用

.css('a::attr(href)').extract()

Scrapy爬蟲框架學習

目錄 五大模組 spider itempipeline schedule engine 四個配置引數 三個物件 常用屬性 常用方法 response 常用屬性 常用方法 item 兩類中介軟體 middleware spidermiddleware 解析html,產生爬取請求和資料 流水線處理資料,...

python學習 scrapy爬蟲框架學習

scrapy學習,可以參考 scrapy1.5中文文件,1 建立專案 指定資料夾目錄建立專案,cmd進入資料夾路徑,使用命令 scrapy startproject 專案名 建立成功後的專案目錄結構 2 編寫第乙個蜘蛛,參考 140.html import scrapy class mingyan ...

Scrapy框架爬蟲學習 3

繼上一節課爬取到了資料之後,這一節將資料入庫。因為python自帶了sqlite seklait 資料庫,直接用就可以。1.新建 sqlite 資料庫 在pycharm下進入terml,然後進入ipython模式,之後 import sqlite3 zufang sqlite3.connect zu...