Scrapy之Spider的用法

spider是定義乙個特定站點（或一組站點）如何被抓取的類，包括如何執行抓取（即跟蹤鏈結）以及如何從頁面中提取結構化資料（即抓取項）。也就是說我們要抓取的**的鏈結配置、抓取邏輯、解析邏輯等其實都是在 spider 中定義的。

spider 的整個爬取迴圈過程如下：

我們定義的 spider 是繼承自 scrapy.spiders.spider。scrapy.spiders.spider 這個類是最簡單最基本的 spider 類，其他 spider 必須繼承這個類。

scrapy.spiders.spider 這個類提供了 start_requests() 方法的預設實現，讀取並請求 start_urls 屬性，並根據返回的結果呼叫 parse() 方法解析結果。

import scrapy
from myproject.items import myitem
class
myspider
(scrapy.spider)
: name =
'example.com'
allowed_domains =
['example.com'
]def
start_requests
(self)
:yield scrapy.request(
'', self.parse)
yield scrapy.request(
'', self.parse)
yield scrapy.request(
'', self.parse)
defparse
(self, response)
:for h3 in response.xpath(
'//h3'
).getall():
yield myitem(title=h3)
for href in response.xpath(
'//a/@href'
).getall():
yield scrapy.request(response.urljoin(href)
, self.parse)

Scrapy之Spider的用法

Scrapy 普通的Spider（二）

讓Scrapy的Spider更通用

scrapy 監控spider啟動和關閉

Scrapy之Spider的用法

Scrapy 普通的Spider（二）

讓Scrapy的Spider更通用

scrapy 監控spider啟動和關閉

相關推薦