gerapy的初步使用(管理分布式爬蟲)

2022-05-30 02:51:07 字數 2174 閱讀 5323

gerapy 是一款分布式爬蟲管理框架,支援 python 3,基於 scrapy、scrapyd、scrapyd-client、scrapy-redis、scrapyd-api、scrapy-splash、jinjia2、django、vue.js 開發。

特點:

更方便地控制爬蟲執行

更直觀地檢視爬蟲狀態

更實時地檢視爬取結果

更簡單地實現專案部署

更統一地實現主機管理

更輕鬆地編寫爬蟲**(幾乎沒用,感覺比較雞肋)

安裝:

pip install gerapy

#gerapy 判斷是否安裝成功

f:\gerapy>gerapy

usage:

gerapy init [--folder=]

gerapy migrate

gerapy createsuperuser

gerapy runserver

gerapy  init

#執行完畢之後,便會在當前目錄下生成乙個名字為 gerapy 的資料夾,接著進入該資料夾,可以看到有乙個 projects 資料夾

#或者gerapy init 指定的絕對目錄

#這樣會在指定的資料夾生成乙個gerapy資料夾

進入新生成的gerapy資料夾

cd 到gerapy目錄

cd gerapy

gerapy migrate

gerapy runserver
這要命令必須新生成的gerapy資料夾只用,否則以前建立的專案都看不奧到

就是配置我們scrapyd 遠端服務.(指定遠端伺服器的ip和埠等等)

需要新增 ip、埠,以及名稱,點選建立即可完成新增,點選返回即可看到當前新增的 scrapyd 服務列表

如果想執行爬蟲,就點選排程.然後執行. 

前提是: 我們配置的scrapyd中,已經發布了 爬蟲.

gerapy 與 scrapyd 有什麼關聯嗎?

我們僅僅使用scrapyd是可以呼叫scrapy進行爬蟲. 只是 需要使用命令列開啟爬蟲

curl  -d project=工程名 -d spider=爬蟲名
·  使用greapy就是為了將使用命令列開啟爬蟲變成 「小手一點」. 我們在gerapy中配置了scrapyd後,不需要使用命令列,可以通過圖形化介面直接開啟爬蟲.

我們就可以把我們寫好的爬蟲檔案放在生成的資料夾gerapy下projects內,然後重新整理網頁就可以發現專案就在裡邊了

然後我們點選部署按鈕就可以進行打包和部署了,描述是自定義的,這個只會在gerapy上顯示,然後會提示我們打包成功,同時左側會顯示打包的結果和打包的名稱。

打包成功後我們就可以在進行部署了,如果有多個主機的話,我們就需要選擇部署的主機,點選後邊部署按鈕,也可以同時批量選擇主機進行部署。

然後我們就可以在主機的專案頁面點選主機,看到爬蟲的執行狀態,並且不用在cmd中輸入命令,通過點選就可以讓爬蟲

執行,停止,並且檢視執行狀態。

最後,gerapy也支援在其網頁上自建爬蟲專案,具體這裡就不介紹了。

Gerapy 分布式爬蟲管理框架使用心得

要在遠端伺服器上佈署自己的分布式爬蟲,個人比較推薦gerapy爬蟲管理框架。這裡就詳細介紹一下gerapy的用法。2.安裝之後進行初始化,執行gerapy init 執行完畢之後,本地便會生成乙個名字為 gerapy 的資料夾,接著進入該資料夾,可以看到有乙個 projects 資料夾,我們後面會用...

Qt UDP的初步使用

為了使用qt自帶的socket進行網路程式設計,先必須熟悉socket程式設計的原理,另外還需對qt一些基本類的操作比較熟悉。由於剛接觸不久,所以還是以看人家的 來學習。這次主要是學qt下udp的程式設計,且熟悉一些qt下 的編寫流程,所以本文參照的是 qt及qt quick開發實戰精解 一書中的第...

GIT的初步使用

1,安裝git工具,在希望的地方建立乙個資料夾,右鍵git bash 2,將git上庫的位址複製下來 在git bash中git clone url 3,git add 檔案 一種是單個檔案 直接git add 檔案,一種是git 資料夾,git add 或者git add 4,git commit...