基於scrapy的爬蟲小記

建立scrapy專案

scrapy startproject tutorial

該條命令的作用是建立乙個名叫tutorial的爬蟲專案

檔案結構為：

tutorial/ scrapy.cfg：專案的配置檔案 tutorial/ __init__.py items.py：自定義你爬下來儲存的資料型別 pipelines.py：將爬取的資料儲存到檔案中 / 查重並丟棄，spider返回item後將作為引數傳入該檔案中的pipeline函式 settings.py：專案的設定檔案 spiders/ ：放置爬蟲（如何爬取）的**的目錄 __init__.py

...

建立spider

scrapy genspider [-t template] spider_name

-t 後面跟模板，比如basic/crawl（使用這個後繼承crawspider）

spider_name將會是你爬蟲檔案裡name變數的值

啟動spider

scrapy crawl ***

*** 是你在spiders目錄的***.py檔案中定義的name變數的值

例子：

import scrapy
class
dmozitem
(scrapy.item)
: title = scrapy.field(
) link = scrapy.field(
) desc = scrapy.field(
)

使用field定義

檔案路徑：tutotial/spiders/***.py

例子：

import scrapy
class
dmozspider
(scrapy.spiders.spider)
: name =
"dmoz"
allowed_domains =
["dmoz.org"
] start_urls =
["",""
]def
parse
(self, response)
: filename = response.url.split(
"/")[-
2]with
open
(filename,
'wb'
)as f:
f.write(response.body)

為了啟用pipeline元件，必須將它新增到settings.py下的

item_pipelines變數下

例子：

item_pipelines =

數字高低決定執行順序，按從低到高的順序依次執行pipeline

基於Scrapy爬蟲框架的執行原理

scrapy是乙個非常強大的第三方庫，也是乙個提高爬蟲效率的框架，入門較難。框架內部包含模組可以描述為 5 2 模組，包含 spiders,item piplines engine scheduler 而engine和spiders，之間包含了兩個中間鍵模組，因此叫 5 2 模組。從spider經過...

基於scrapy框架的爬蟲專案（一）

skr pi 一參考資料 1.官方中文文件 2.簡單易操作的爬蟲框架 simplified scrapy 3.爬蟲框架scrapy的安裝與基本使用二 simplified scrapy的使用方法 1.匯入simplified scrapy包 pip install simplified scra...

基於Scrapy框架編寫爬蟲專案

知識點 2種安裝模組的方式。以下兩種方式可以安裝絕大部分模組，網路安裝指直接在控制台 pip install xx 第6條，配置過程 1.複製 f 程式設計 python lib site packages pywin32 system32 下的兩個.dll檔案 2.貼上到 c windows s...

基於scrapy的爬蟲小記

基於Scrapy爬蟲框架的執行原理

基於scrapy框架的爬蟲專案（一）

基於Scrapy框架編寫爬蟲專案

相關推薦