爬蟲基礎4 框架Scrapy

2022-05-22 22:27:14 字數 1759 閱讀 8838

scrapy是乙個為了爬取**資料,提取結構性資料而編寫的應用框架。 其可以應用在資料探勘,資訊處理或儲存歷史資料等一系列的程式中。

其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的, 也可以應用在獲取api所返回的資料(例如 amazon associates web services ) 或者通用的網路爬蟲。scrapy用途廣泛,可以用於資料探勘、監測和自動化測試。

scrapy主要包括了以下元件:

scrapy執行流程大概如下:

引擎從排程器中取出乙個鏈結(url)用於接下來的抓取

爬蟲解析response

解析出實體(item),則交給實體管道進行進一步的處理

解析出的是鏈結(url),則把url交給排程器等待抓取

一、安裝

linux

pip3 install scrapy

windows

a. pip3 install wheel

twisted

d. pip3 install scrapy

二、基本使用

1. 基本命令

1. scrapy startproject 專案名稱

-在當前目錄中建立中建立乙個專案檔案(類似於django)

2. scrapy genspider [-t template] -建立爬蟲應用

如:scrapy gensipider -t basic oldboy oldboy.com

scrapy gensipider -t xmlfeed autohome autohome.com.cn

ps:檢視所有命令:scrapy gensipider -l

檢視模板命令:scrapy gensipider -d 模板名稱

3. scrapy list

-展示爬蟲應用列表

4. scrapy crawl 爬蟲應用名稱

- 執行單獨爬蟲應用

2.專案結構以及爬蟲應用簡介

project_name/scrapy.cfg

project_name/

__init__

.py items.py

pipelines.py

settings.py

spiders/

__init__

.py 爬蟲1.py

爬蟲2.py

爬蟲3.py

檔案說明:

import

scrapy

class

xiaohuarspider(scrapy.spiders.spider):

name = "

xiaohuar"#

爬蟲名稱 *****

allowed_domains = ["

xiaohuar.com

"] #

允許的網域名稱

start_urls =[

"", #

其實url]

defparse(self, response):

#訪問起始url並獲取結果後的**函式

爬蟲1.py

import

sys,os

gb18030

')

關於windows編碼問題

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...

Scrapy爬蟲框架

scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動,並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊,以便之後引擎請求request時提供給引擎。4.spider。spider是scra...