基於scrapy的爬蟲小記

2021-09-29 21:44:26 字數 1546 閱讀 9029

建立scrapy專案

scrapy startproject tutorial

該條命令的作用是建立乙個名叫tutorial的爬蟲專案

檔案結構為:

tutorial/

scrapy.cfg:專案的配置檔案

tutorial/

__init__.py

items.py:自定義你爬下來儲存的資料型別

pipelines.py:將爬取的資料儲存到檔案中 / 查重並丟棄,spider返回item後將作為引數傳入該檔案中的pipeline函式

settings.py: 專案的設定檔案

spiders/ :放置爬蟲(如何爬取)的**的目錄

__init__.py

...

建立spider

scrapy genspider [-t template] spider_name

-t 後面跟模板,比如basic/crawl(使用這個後繼承crawspider)

spider_name將會是你爬蟲檔案裡name變數的值

啟動spider

scrapy crawl ***

*** 是你在spiders目錄的***.py檔案中定義的name變數的值

例子:

import scrapy

class

dmozitem

(scrapy.item)

: title = scrapy.field(

) link = scrapy.field(

) desc = scrapy.field(

)

使用field定義

檔案路徑:tutotial/spiders/***.py

例子:

import scrapy

class

dmozspider

(scrapy.spiders.spider)

: name =

"dmoz"

allowed_domains =

["dmoz.org"

] start_urls =

["",""

]def

parse

(self, response)

: filename = response.url.split(

"/")[-

2]with

open

(filename,

'wb'

)as f:

f.write(response.body)

為了啟用pipeline元件,必須將它新增到settings.py下的

item_pipelines變數下

例子:

item_pipelines =

數字高低決定執行順序,按從低到高的順序依次執行pipeline

基於Scrapy爬蟲框架的執行原理

scrapy是乙個非常強大的第三方庫,也是乙個提高爬蟲效率的框架,入門較難。框架內部包含模組可以描述為 5 2 模組,包含 spiders,item piplines engine scheduler 而engine和spiders,之間包含了兩個中間鍵模組,因此叫 5 2 模組。從spider經過...

基於scrapy框架的爬蟲專案(一)

skr pi 一 參考資料 1.官方中文文件 2.簡單易操作的爬蟲框架 simplified scrapy 3.爬蟲框架scrapy的安裝與基本使用 二 simplified scrapy的使用方法 1.匯入simplified scrapy包 pip install simplified scra...

基於Scrapy框架編寫爬蟲專案

知識點 2種安裝模組的方式。以下兩種方式可以安裝絕大部分模組,網路安裝 指直接在控制台 pip install xx 第6條,配置過程 1.複製 f 程式設計 python lib site packages pywin32 system32 下的兩個.dll檔案 2.貼上到 c windows s...