爬蟲基礎4 框架Scrapy

scrapy是乙個為了爬取**資料，提取結構性資料而編寫的應用框架。其可以應用在資料探勘，資訊處理或儲存歷史資料等一系列的程式中。

其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取api所返回的資料(例如 amazon associates web services ) 或者通用的網路爬蟲。scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。

scrapy主要包括了以下元件：

scrapy執行流程大概如下：

引擎從排程器中取出乙個鏈結(url)用於接下來的抓取

爬蟲解析response

解析出實體（item）,則交給實體管道進行進一步的處理

解析出的是鏈結（url）,則把url交給排程器等待抓取

一、安裝

linux

pip3 install scrapy

windows

a. pip3 install wheel

twisted

d. pip3 install scrapy

二、基本使用

1. 基本命令

1. scrapy startproject 專案名稱

-在當前目錄中建立中建立乙個專案檔案（類似於django）

2. scrapy genspider [-t template] -建立爬蟲應用

如：scrapy gensipider -t basic oldboy oldboy.com

scrapy gensipider -t xmlfeed autohome autohome.com.cn

ps:檢視所有命令：scrapy gensipider -l

檢視模板命令：scrapy gensipider -d 模板名稱

3. scrapy list

-展示爬蟲應用列表

4. scrapy crawl 爬蟲應用名稱

- 執行單獨爬蟲應用

2.專案結構以及爬蟲應用簡介

project_name/scrapy.cfg

project_name/

__init__

.py items.py

pipelines.py

settings.py

spiders/

__init__

.py 爬蟲1.py

爬蟲2.py

爬蟲3.py

檔案說明：

import
scrapy
class
xiaohuarspider(scrapy.spiders.spider):
name = "
xiaohuar"#
爬蟲名稱 *****
allowed_domains = ["
xiaohuar.com
"] #
允許的網域名稱
start_urls =[
"", #
其實url] 
defparse(self, response):
#訪問起始url並獲取結果後的**函式

爬蟲1.py

import
sys,os
gb18030
')

關於windows編碼問題

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後，深入學習了一下scrapy這個爬蟲框架，現將一些基本知識和總結整理一下，以備後查。2.scrapy的命令列使用這部分網上很多部落格都有總結，不需要背，理解會用主要的命令 startproject crawl fetch list genspider.即可，...

scrapy 爬蟲框架

1.安裝公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱執行此命令,可以生成乙個爬蟲專案會預先生成...

Scrapy爬蟲框架

scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動，並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊，以便之後引擎請求request時提供給引擎。4.spider。spider是scra...

爬蟲基礎4 框架Scrapy

scrapy爬蟲框架

scrapy 爬蟲框架

Scrapy爬蟲框架

相關推薦