Scrapy基本介紹的學習(一)

2021-09-26 16:26:15 字數 1029 閱讀 7152

scrapy框架

scrapy工作流程

第二步:引擎從spider中獲取第乙個要爬取的url並通過scheduler(排程器)以request進行排程

第七步:spider處理response並返回爬取到的item及(跟進的)新的request給引擎。

第八步:引擎講(spider返回的)爬取到的item給item pipeline,將(spider返回的)request給排程器。

scrapy的基本檔案目錄

建立第乙個scrapy專案

建立乙個爬蟲專案指令在shell執行scrapy genspider 爬蟲名字 "爬取**的url"

import scrapy

class

cnblogsspoder

(scrapy.spider)

: a

name =

"建立時候的爬蟲名字"

allowed_domains =

# 也就是總url,防止往別的**上爬取注意點是**不是頁面

start_urls =

["爬取頁面的位址"

]# 這個是爬取頁面的url列表

defparse

(self, response)

:'''實現網頁的解析'''

pass

scrapy的選擇器

scrapy有自己的一套資料提取機制。就因為它們通過特定的xpath或者css表示式來選擇html檔案中的某個部分。也就是構建在lxml庫之上,這也是意味著它們在速度和解析準確性上非常相似,或者使用beautifulsoup包進行解析

scrapy資料儲存成檔案

儲存成json檔案scrapy crawl 爬蟲名字 -o 檔名.json

儲存成jl檔案scrapy crawl 爬蟲名字 -o 檔名.jl

儲存成csv檔案scrapy crawl 爬蟲名字 -o 檔名.csv

儲存成xml檔案scrapy crawl 爬蟲名字 -o 檔名.xm

scrapy基本介紹及執行原理

1 scrapy是用純python實現乙個為了爬取 資料 提取結構性資料而編寫的應用框架,用途廣泛。2 使用者只需要定製開發的幾個模組就能輕鬆實現乙個爬蟲,用來抓取網頁內容 1 scrapy engine 引擎 負責spider itempipline scheduler中間的通訊,訊號 資料傳遞等...

Scrapy 安裝介紹以及基本操作

目前我是使用第二種方法,利用anaconda安裝scrapy框架。比較簡單不會出現公升級 pip 提示。1.在日常寫 的目錄下,建乙個資料夾 scrapy測試 2.終端中輸入 cd 注意cd後有乙個空格 接著進入該資料夾 3.在終端輸入指令 scrapy startproject wxz 在該資料夾...

Scrapy基本命令及spider介紹

scrapy基本命令 1.help scrapy的基本命令,用於檢視幫助資訊 列 scrapy help 2.version 檢視版本資訊,可見 v引數檢視各元件的版本資訊 列 scrapy version v 3.startproject 用於建立乙個工程,並建立乙個完整的工程目錄 列 scrap...