Scrapy入門程式點評

1，引言

在《scrapy的架構初探》一文，我基於爬蟲開發的經驗對scrapy官網文章作了點評和解讀，事件驅動的非同步處理架構、極強的模組化等是個絕好的框架，接著我細讀了官網的《scrapy at a glance》，更加強了我的感受：就是他了——開源python網路爬蟲專案需要乙個爬蟲框架，我不想重**明輪子，只想專注於爬蟲裡面的提取器的生成和使用，也就是scrapy中的spider部分。

本文大部分內容摘抄自scrapy官網的《scrapy at a glance》，看到scrapy巧妙之處則加了點評。

2，scrapy的spider例子

在scrapy的框架中，spider與gooseeker開源爬蟲的提取器類似，核心特徵是

對gooseeker的ms謀數台和ds打數機比較了解的讀者，可以把spider想象成：ms謀數台上定義的一組抓取規則 + 會員中心的爬蟲羅盤

下面我們從官網拷貝乙個例子：

class stackoverflowspider(scrapy.spider):
name = 'stackoverflow'
start_urls = ['']
def parse(self, response):
for href in response.css('.question-summary h3 a::attr(href)'):
full_url = response.urljoin(href.extract())
yield scrapy.request(full_url, callback=self.parse_question)
def parse_question(self, response):
yield

看這個例子需要注意以下幾點

官網文章還總結了其他很多功能特性，總之，scrapy是乙個十分完善和強大的框架。

3，接下來的工作

至此，scrapy框架已經明確選定了，接下來，我們將進一步研讀scrapy的文件，研究怎樣把gooseeker的g***tractor封裝成scrapy需要的spider。

4，文件修改歷史

2016-06-13：v1.0，首次發布

爬蟲Scrapy 02入門程式

建立乙個scrapy專案定義提取的結構化資料 item 編寫爬取的 spider 並提取出結構化資料 item 編寫 item pipelines 來儲存提取到的item 即結構化資料在開始爬取之前，必須建立乙個新的scrapy專案。進入自定義的專案目錄中，執行下列命令 scrapy star...

Scrapy入門 Scrapy是什麼

一 scrapy 蜘蛛 scrapy是我們熟知的蜘蛛爬蟲框架，我們用蜘蛛來獲取網際網路上的各種資訊，然後再對這些資訊進行資料分析處理。所以說，scrapy是學習大資料的入門技能。scrapy是乙個為了爬取資料，提取結構性資料而編寫的應用框架。蜘蛛作為網路爬蟲，在網上到處或定向抓取網頁的html資...

Scrapy入門案例

scrapy是乙個為了爬取資料，提取結構性資料而編寫的應用框架。其可以應用在資料探勘，資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取更確切來說,網路抓取所設計的，也可以應用在獲取api所返回的資料例如 amazon associates web services 或者通用的網路...

Scrapy入門程式點評

爬蟲Scrapy 02入門程式

Scrapy入門 Scrapy是什麼

Scrapy入門案例

相關推薦