爬蟲框架Scrapy

2021-10-09 15:48:13 字數 1202 閱讀 7551

scrapy是乙個為了爬取**資料,提取結構性資料而編寫的應用框架,非常出名,非常強悍。

對於框架的學習,重點是要學習其框架的特性、各個功能的用法即可

安裝  linux:

pip3 install scrapy

windows:

a. pip3 install wheel

注意把檔名修改為:tensorflow-1.7.0-cp36-cp36m-win32.whl再使用pip安裝即可成功。

d. pip3 install pywin32

e. pip3 install scrapy

建立專案

scrapy startproject 專案名稱

scrapy.cfg 專案的主配置資訊。(真正爬蟲相關的配置資訊在settings.py檔案中)

items.py 設定資料儲存模板,用於結構化資料,如:django的model

pipelines 資料持久化處理

spiders 爬蟲目錄,如:建立檔案,編寫爬蟲解析規則

2.建立爬蟲應用程式:

cd project_name(進入專案目錄)

scrapy genspider 應用名稱 爬取網頁的起始url (例如:scrapy genspider qiubai www.qiushibaike.com)

3.編寫爬蟲檔案:在步驟2執行完畢後,會在專案的spiders中生成乙個應用名的py爬蟲檔案,檔案原始碼如下:

# -*- coding: utf-8 -*-

import scrapy

class testspider(scrapy.spider):

name = 'test'

allowed_domains = ['']

start_urls = ['']

def parse(self, response):

print(response.text) # 獲取字串型別的響應內容

# print(response.body) # 獲取位元組型別的相應內容

(可忽略)

4.設定修改settings.py配置檔案相關配置:

修改內容及其結果如下:

22行:robotstxt_obey = false #可以忽略或者不遵守robots協議

5.執行爬蟲程式:scrapy crawl 應用名稱

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...

Scrapy爬蟲框架

scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動,並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊,以便之後引擎請求request時提供給引擎。4.spider。spider是scra...