Scrapy框架學習 搭建開發環境

2021-08-13 23:52:02 字數 1972 閱讀 2004

sudo pip3 install scrapy

測試是否安裝成功

# h1標題

h1=scrapy.field()

# h2標題

h2=scrapy.field()

spiders/myspider.py

# !/usr/bin/env python

# -*- coding:utf-8 -*-

import scrapy

from myscrapy.items import myitem

class myspider(scrapy.spider):

name = 'myspider'

allowed_domains=['',]

start_urls=['/intro/tutorial.html',]

def parse(self, response):

print('----------\n'+response.body+'----------\n')

items=

# h1,只有乙個

h1=response.xpath('//h1/text()').extract()[0]

h1item=myitem()

h1item['h1']=h1

# h2,有多個

h2_list=response.xpath('//div[@class="section"]/h2/text()').extract()

for h2 in h2_list:

h2item=myitem()

h2item['h2']=h2

return items

scrapy crawl myspider -o scrapy.json執行完畢,如果 

scrapy.json檔案為空,查詢日誌,發現報錯:連線被拒絕

connection was refused by other side: 111: connection refused.

解決這個問題的思路:

1.在settings.py檔案中設定user-agent

2.在settings.py檔案中設定download_delay

3.如果經過以上2步驟還不行,就使用sudo命令執行爬蟲

sudo scrapy crawl myspider -o scrapy.json

爬取成功!!!!

Scrapy框架學習

scrapy框架的工作流程 1.首先spiders 爬蟲 將需要傳送請求的url requests 經scrapyengine 引擎 交給scheduler 排程器 2.scheduler 排序,入隊 處理後,經scrapyengine,middlewares 可選,主要有user agent,pr...

Scrapy爬蟲框架學習

目錄 五大模組 spider itempipeline schedule engine 四個配置引數 三個物件 常用屬性 常用方法 response 常用屬性 常用方法 item 兩類中介軟體 middleware spidermiddleware 解析html,產生爬取請求和資料 流水線處理資料,...

Scrapy框架學習筆記

在pycharm中新建乙個專案kwscrapyspider 2.file setting python interpreter安裝scrapy 開啟terminal,執行命令 scrapy startproject kwspider 建立scrapy專案 cd kwspider scrapy gen...