RUN IT scrapy改分布式

2021-09-26 14:23:37 字數 670 閱讀 2425

1

. spider

1.from scrapy_redis.spiders import redisspider

2.修改繼承關係

3.redis_key =

'api:start_urls'

4. allow_domains 網域名稱範圍

4.1 allow_domains =

[寫死的]

4.2 自動獲取

2. setting

# 1.設定 分布式的 去重組件

dupefilter_class =

"scrapy_redis.dupefilter.rfpdupefilter"

# 2.設定 分布式的 排程器

scheduler =

"scrapy_redis.scheduler.scheduler"

# 3.允許爬蟲中途停止 中斷

scheduler_persist =

true

# 4.設定 redis 資料庫的埠號 和ip

redis_host =

'127.0.0.1'

redis_port =

6379

'scrapy_redis.pipelines.redispipeline'

:400

分布式 分布式鎖

本質是利用redis的setnx 方法的特性來加鎖,setnx 即key不存在則設定key,否則直接返回false,要求在分布式系統中使用同乙個redis服務,以下提供兩種解決方案 1 直接使用redistemplate 這其實並不能完全保證高併發下的安全問題,因為可能在鎖過期之後該執行緒尚未執行完...

分布式 分布式事務

是資料庫執行過程中的乙個邏輯單位,由乙個有限的資料庫操作序列構成。事務的acid四大特性 原子性 atomicity 事務作為乙個整體被執行。一致性 consistency 從乙個一致的狀態轉換到另乙個一致的狀態。隔離性 isolation 多個事務併發執行時,併發事務之間互相影響的程度。永續性 d...

分布式之分布式事務

被人問到分布式事務,之前學rabbitmq 的時候學到過rabbitmq 高階的事務,因為沒有用過,所有沒有回答好。這裡總結一下。1.單機版事務。事務的四大特性 acid a.原子性 b.一致性 c.隔離性 d.永續性 單機事務可以通過設定事務的隔離級別 參見spring 的事務隔離級別 2.分布式...