Gerapy 分布式爬蟲管理框架使用心得

要在遠端伺服器上佈署自己的分布式爬蟲，個人比較推薦gerapy爬蟲管理框架。

這裡就詳細介紹一下gerapy的用法。

2.安裝之後進行初始化，執行gerapy init

執行完畢之後，本地便會生成乙個名字為 gerapy 的資料夾，接著進入該資料夾，可以看到有乙個 projects 資料夾，我們後面會用到。

3.緊接著在gerapy目錄下執行gerapy migrate

這樣它就會在 gerapy 目錄下生成乙個 sqlite 資料庫，同時建立資料庫表。

4.gerapy這時已經配置完畢，接下來還有其他的準備工作要做

a.既然要在遠端伺服器（也是從屬機）上的分布式爬蟲，遠端伺服器必須開啟scrapyd服務，進入scrapydtest檔案，在命令列輸入scrapyd。

b.主機必須在命令列中開啟redis服務和scrapyd服務，保留命令列視窗

c.必須準備一套公用的分布式爬蟲**，裡面的cfg檔案，以及settings，爬蟲檔案都要配置好，備用。

d.如果要連線遠端伺服器，也就是從屬機，每一台伺服器都需要修改乙個配置，如下（目的是開放許可權，讓主機可以連線各個從屬機）：

5.接下來在gerapy目錄下輸入 gerapy runserver 命令

（這裡也可以輸入gerapy runserver 0.0.0.0，這樣的話其他伺服器也可以操作主機的gerapy進行佈署）

6.開啟127.0.0.1:8000,進入gerapy主機管理頁面

7.建立所需的伺服器主機，位址是從屬伺服器的ip位址，即可排程各個伺服器向伺服器佈署專案

8.將需要佈署的專案資料夾拷貝進gerapy目錄下的projects資料夾下

在專案介面即可顯示自己需要佈署的專案，確認分布式爬蟲檔案無誤，一鍵打包，向各伺服器批量佈署

9.返回主機介面，排程各伺服器，即可發現專案已佈署進各個目標伺服器

10.接下來，就要執行自己的爬蟲了，在redis目錄下，輸入redis-cli -h 主機網域名稱 -p 6379，確保連線後，在管理頁面，排程各伺服器，執行分布式爬蟲，

接著在命令列工具繼續輸入lpush命令，向遠端伺服器佈署的分布式爬蟲就開始執行了。

11.期間可以在檢視主機各伺服器爬蟲的執行狀態，也可以管理執行或停止

注意事項：

為一切流程正常進行

各從屬機必須一直開啟scapyd服務

主機必須開啟redis服務

scrapyd服務

gerapy執行視窗也要保留

其餘注意事項參考上兩篇部落格

基於scrapy_redis部署分布式爬蟲

scrapyd佈署爬蟲專案

怎麼樣，是不是很方便啊！！！！！！！！

gerapy的初步使用（管理分布式爬蟲）

gerapy 是一款分布式爬蟲管理框架，支援 python 3，基於 scrapy scrapyd scrapyd client scrapy redis scrapyd api scrapy splash jinjia2 django vue.js 開發。特點更方便地控制爬蟲執行更直觀地檢視爬...

scrapy框架之分布式爬蟲

scrapy redis元件作用實現流程修改配置檔案settings 結合著配置檔案開啟redis服務啟動客戶端執行工程進入到spiders目錄下向排程器的佇列中放入乙個起始url 爬取到的資料儲存在了redis的proname items這個資料結構中其實分布式的並不難，主要是配置...

爬蟲分布式爬蟲

爬蟲的本質很多搞爬蟲的總愛吹噓分布式爬蟲，彷彿只有分布式才有逼格，不是分布式簡直不配叫爬蟲，這是一種很膚淺的思想。分布式只是提高爬蟲功能和效率的乙個環節而已，它從來不是爬蟲的本質東西。爬蟲的本質是網路請求和資料處理，如何穩定地訪問網頁拿到資料，如何精準地提取出高質量的資料才是核心問題。分布式爬蟲只...

Gerapy 分布式爬蟲管理框架使用心得

gerapy的初步使用（管理分布式爬蟲）

scrapy框架之分布式爬蟲

爬蟲 分布式爬蟲

相關推薦

爬蟲分布式爬蟲