Gerapy 分布式爬蟲管理框架使用心得

2021-08-28 12:21:41 字數 1376 閱讀 7048

要在遠端伺服器上佈署自己的分布式爬蟲,個人比較推薦gerapy爬蟲管理框架。

這裡就詳細介紹一下gerapy的用法。

2.安裝之後進行初始化,執行gerapy init

執行完畢之後,本地便會生成乙個名字為 gerapy 的資料夾,接著進入該資料夾,可以看到有乙個 projects 資料夾,我們後面會用到。

3.緊接著在gerapy目錄下執行gerapy migrate

這樣它就會在 gerapy 目錄下生成乙個 sqlite 資料庫,同時建立資料庫表。

4.gerapy這時已經配置完畢,接下來還有其他的準備工作要做

a.既然要在遠端伺服器(也是從屬機)上的分布式爬蟲,遠端伺服器必須開啟scrapyd服務,進入scrapydtest檔案,在命令列輸入scrapyd。

b.主機必須在命令列中開啟redis服務和scrapyd服務,保留命令列視窗

c.必須準備一套公用的分布式爬蟲**,裡面的cfg檔案,以及settings,爬蟲檔案都要配置好,備用。

d.如果要連線遠端伺服器,也就是從屬機,每一台伺服器都需要修改乙個配置,如下(目的是開放許可權,讓主機可以連線各個從屬機):

5.接下來在gerapy目錄下輸入 gerapy runserver 命令

(這裡也可以輸入gerapy runserver 0.0.0.0, 這樣的話其他伺服器也可以操作主機的gerapy進行佈署)

6.開啟127.0.0.1:8000,進入gerapy主機管理頁面

7.建立所需的伺服器主機,位址是從屬伺服器的ip位址,即可排程各個伺服器向伺服器佈署專案

8.將需要佈署的專案資料夾拷貝進gerapy目錄下的projects資料夾下

在專案介面即可顯示自己需要佈署的專案,確認分布式爬蟲檔案無誤,一鍵打包,向各伺服器批量佈署

9.返回主機介面,排程各伺服器,即可發現專案已佈署進各個目標伺服器

10.接下來,就要執行自己的爬蟲了,在redis目錄下,輸入redis-cli -h 主機網域名稱 -p 6379,確保連線後,在管理頁面,排程各伺服器,執行分布式爬蟲,

接著在命令列工具繼續輸入lpush命令,向遠端伺服器佈署的分布式爬蟲就開始執行了。

11.期間可以在檢視主機各伺服器爬蟲的執行狀態,也可以管理執行或停止

注意事項:

為一切流程正常進行

各從屬機必須一直開啟scapyd服務

主機必須開啟redis服務

scrapyd服務

gerapy執行視窗也要保留

其餘注意事項參考上兩篇部落格

基於scrapy_redis部署分布式爬蟲

scrapyd佈署爬蟲專案

怎麼樣,是不是很方便啊!!!!!!!!

gerapy的初步使用(管理分布式爬蟲)

gerapy 是一款分布式爬蟲管理框架,支援 python 3,基於 scrapy scrapyd scrapyd client scrapy redis scrapyd api scrapy splash jinjia2 django vue.js 開發。特點 更方便地控制爬蟲執行 更直觀地檢視爬...

scrapy框架之分布式爬蟲

scrapy redis元件作用 實現流程 修改配置檔案settings 結合著配置檔案開啟redis服務 啟動客戶端 執行工程 進入到spiders目錄下 向排程器的佇列中放入乙個起始url 爬取到的資料儲存在了redis的proname items這個資料結構中 其實分布式的 並不難,主要是配置...

爬蟲 分布式爬蟲

爬蟲的本質 很多搞爬蟲的總愛吹噓分布式爬蟲,彷彿只有分布式才有逼格,不是分布式簡直不配叫爬蟲,這是一種很膚淺的思想。分布式只是提高爬蟲功能和效率的乙個環節而已,它從來不是爬蟲的本質東西。爬蟲的本質是網路請求和資料處理,如何穩定地訪問網頁拿到資料,如何精準地提取出高質量的資料才是核心問題。分布式爬蟲只...