scrapy 分布式爬蟲

scrapy-redis元件作用：

修改配置檔案settings

使用scrapy-redis元件自己的排程器

配置排程器是否要持久化, 也就是當爬蟲結束了, 要不要清空redis中請求佇列和去重指紋的set。如果是true, 就表示要持久化儲存, 就不清空資料, 否則清空資料

redis_port = 6379

結合著配置檔案開啟redis服務

啟動客戶端：

執行工程：

向排程器的佇列中放入乙個起始的url：

爬取到的資料儲存在了redis的proname:items這個資料結構中

#指定管道 item_pipelines = #指定排程器 # 增加了乙個去重容器類的配置, 作用使用redis的set集合來儲存請求的指紋資料, 從而實現請求去重的持久化 dupefilter_class = "scrapy_redis.dupefilter.rfpdupefilter" # 使用scrapy-redis元件自己的排程器 scheduler = "scrapy_redis.scheduler.scheduler" # 配置排程器是否要持久化, 也就是當爬蟲結束了, 要不要清空redis中請求佇列和去重指紋的set。如果是true, 就表示要持久化儲存, 就不清空資料, 否則清空資料 scheduler_persist = true #指定redis redis_host = '127.0.0.1' #redis遠端伺服器的ip（修改）

redis_port = 6379

scrapy 分布式爬蟲

scrapy框架之分布式爬蟲

scrapy如何實現分布式爬蟲

爬蟲分布式爬蟲

scrapy 分布式爬蟲

scrapy框架之分布式爬蟲

scrapy如何實現分布式爬蟲

爬蟲 分布式爬蟲

相關推薦

爬蟲分布式爬蟲