基於scrapy redis部署分布式爬蟲

2021-08-28 12:18:30 字數 1221 閱讀 5190

#基於scrapy_redis部署分布式爬蟲

準備工作,主機需要開啟redis服務,進入redis目錄,在命令列工具中輸入

redis-server redis-windows.conf

3.使用pycharm開啟專案,找到settings檔案,配置scrapy專案使用的排程器及過濾器

4.修改spider爬蟲檔案

5.如果連線的有遠端服務,例如mysql,redis等,需要將遠端服務連線開啟,保證在其他主機上能夠成功連線,如果要在mysql中遠端儲存,需要在mysql中開啟許可權

6.配置遠端連線的mysql及redis位址

7.另開啟乙個cmd,在redis目錄下輸入redis-cli -h 主機網域名稱 -p 6379

然後回車出現 主機網域名稱》 (與此同時從屬機執行爬蟲)

8.當從屬機成功執行爬蟲並暫停等待接收請求的時候,命令列中lpush 起始**,回車。分布式爬蟲就部署好了。

9.開啟mysql,redis資料庫,檢視有沒有存入資料。如果過程出現問題,請細心檢查以上幾步有沒有配置完善,實在不行,從第一步開始從頭部署。

分布式用到的**應該是同一套**

1) 先把專案配置為分布式

2) 把專案拷貝到多台伺服器中

3) 把所有爬蟲專案都跑起來

4) 在主redis-cli中lpush你的**即可

5) 效果:所有爬蟲都開始執行,並且資料還都不一樣

scrapy redis部署總結

1.安裝 安裝scrapy redis包,開啟cmd工具,執行命令pip install scrapy redis 準備好要部署的爬蟲專案 準備好redis伺服器還有跟程式相關的mysql資料庫 開啟redis 連線上伺服器 2.部署 修改爬蟲專案的settings檔案 修改spiders爬蟲檔案 ...

scrapy redis的安裝部署

先說下自己的環境,redis是部署在centos上的,爬蟲執行在windows上,1.安裝redis yum install y redis2.修改配置檔案 vi etc redis.conf將 protected mode no解注釋,否則的話,在不設定密碼情況下遠端無法連線redis 3.重啟r...

基於scrapy redis的分布式爬蟲配置

基於scrapy的爬蟲只能是單機式爬蟲,而借助scrapy redis可實現分布式爬蟲 首先要安裝scrapy redis pip install scrapy redis在此之前,應該已經裝好了scrapy和redis 新建乙個scrapy專案和爬蟲檔案 使用scrapy redis的去重組件,在...