Scrapy基本介紹的學習（一）

scrapy框架

scrapy工作流程

第二步：引擎從spider中獲取第乙個要爬取的url並通過scheduler(排程器)以request進行排程

第七步：spider處理response並返回爬取到的item及(跟進的)新的request給引擎。

第八步：引擎講(spider返回的)爬取到的item給item pipeline，將(spider返回的)request給排程器。

scrapy的基本檔案目錄

建立第乙個scrapy專案

建立乙個爬蟲專案指令在shell執行scrapy genspider 爬蟲名字 "爬取**的url"

import scrapy
class
cnblogsspoder
(scrapy.spider)
: a
name =
"建立時候的爬蟲名字" 
allowed_domains =
# 也就是總url，防止往別的**上爬取注意點是**不是頁面 
start_urls =
["爬取頁面的位址"
]# 這個是爬取頁面的url列表
defparse
(self, response)
:'''實現網頁的解析'''
pass

scrapy的選擇器

scrapy有自己的一套資料提取機制。就因為它們通過特定的xpath或者css表示式來選擇html檔案中的某個部分。也就是構建在lxml庫之上，這也是意味著它們在速度和解析準確性上非常相似，或者使用beautifulsoup包進行解析

scrapy資料儲存成檔案

儲存成json檔案scrapy crawl 爬蟲名字 -o 檔名.json

儲存成jl檔案scrapy crawl 爬蟲名字 -o 檔名.jl

儲存成csv檔案scrapy crawl 爬蟲名字 -o 檔名.csv

儲存成xml檔案scrapy crawl 爬蟲名字 -o 檔名.xm

scrapy基本介紹及執行原理

1 scrapy是用純python實現乙個為了爬取資料提取結構性資料而編寫的應用框架，用途廣泛。2 使用者只需要定製開發的幾個模組就能輕鬆實現乙個爬蟲，用來抓取網頁內容 1 scrapy engine 引擎負責spider itempipline scheduler中間的通訊，訊號資料傳遞等...

Scrapy 安裝介紹以及基本操作

目前我是使用第二種方法，利用anaconda安裝scrapy框架。比較簡單不會出現公升級 pip 提示。1.在日常寫的目錄下，建乙個資料夾 scrapy測試 2.終端中輸入 cd 注意cd後有乙個空格接著進入該資料夾 3.在終端輸入指令 scrapy startproject wxz 在該資料夾...

Scrapy基本命令及spider介紹

scrapy基本命令 1.help scrapy的基本命令，用於檢視幫助資訊列 scrapy help 2.version 檢視版本資訊，可見 v引數檢視各元件的版本資訊列 scrapy version v 3.startproject 用於建立乙個工程，並建立乙個完整的工程目錄列 scrap...

Scrapy基本介紹的學習（一）

scrapy基本介紹及執行原理

Scrapy 安裝介紹以及基本操作

Scrapy基本命令及spider介紹

相關推薦