gerapy的初步使用（管理分布式爬蟲）

gerapy 是一款分布式爬蟲管理框架，支援 python 3，基於 scrapy、scrapyd、scrapyd-client、scrapy-redis、scrapyd-api、scrapy-splash、jinjia2、django、vue.js 開發。

特點：

更方便地控制爬蟲執行

更直觀地檢視爬蟲狀態

更實時地檢視爬取結果

更簡單地實現專案部署

更統一地實現主機管理

更輕鬆地編寫爬蟲**(幾乎沒用,感覺比較雞肋)

安裝：

pip install gerapy

#gerapy 判斷是否安裝成功

f:\gerapy>gerapy

usage:

gerapy init [--folder=]

gerapy migrate

gerapy createsuperuser

gerapy runserver

gerapy init

#執行完畢之後，便會在當前目錄下生成乙個名字為 gerapy 的資料夾，接著進入該資料夾，可以看到有乙個 projects 資料夾

#或者gerapy init 指定的絕對目錄

#這樣會在指定的資料夾生成乙個gerapy資料夾

進入新生成的gerapy資料夾

cd 到gerapy目錄

cd gerapy

gerapy migrate

gerapy runserver

這要命令必須新生成的gerapy資料夾只用，否則以前建立的專案都看不奧到

就是配置我們scrapyd 遠端服務.（指定遠端伺服器的ip和埠等等）

需要新增 ip、埠，以及名稱，點選建立即可完成新增，點選返回即可看到當前新增的 scrapyd 服務列表

如果想執行爬蟲,就點選排程.然後執行.

前提是: 我們配置的scrapyd中,已經發布了爬蟲.

gerapy 與 scrapyd 有什麼關聯嗎?

我們僅僅使用scrapyd是可以呼叫scrapy進行爬蟲. 只是需要使用命令列開啟爬蟲

curl  -d project=工程名 -d spider=爬蟲名

·　　使用greapy就是為了將使用命令列開啟爬蟲變成「小手一點」. 我們在gerapy中配置了scrapyd後,不需要使用命令列,可以通過圖形化介面直接開啟爬蟲.

我們就可以把我們寫好的爬蟲檔案放在生成的資料夾gerapy下projects內，然後重新整理網頁就可以發現專案就在裡邊了

然後我們點選部署按鈕就可以進行打包和部署了，描述是自定義的，這個只會在gerapy上顯示，然後會提示我們打包成功，同時左側會顯示打包的結果和打包的名稱。

打包成功後我們就可以在進行部署了，如果有多個主機的話，我們就需要選擇部署的主機，點選後邊部署按鈕，也可以同時批量選擇主機進行部署。

然後我們就可以在主機的專案頁面點選主機，看到爬蟲的執行狀態，並且不用在cmd中輸入命令，通過點選就可以讓爬蟲

執行，停止，並且檢視執行狀態。

最後，gerapy也支援在其網頁上自建爬蟲專案，具體這裡就不介紹了。

Gerapy 分布式爬蟲管理框架使用心得

要在遠端伺服器上佈署自己的分布式爬蟲，個人比較推薦gerapy爬蟲管理框架。這裡就詳細介紹一下gerapy的用法。2.安裝之後進行初始化，執行gerapy init 執行完畢之後，本地便會生成乙個名字為 gerapy 的資料夾，接著進入該資料夾，可以看到有乙個 projects 資料夾，我們後面會用...

Qt UDP的初步使用

為了使用qt自帶的socket進行網路程式設計，先必須熟悉socket程式設計的原理，另外還需對qt一些基本類的操作比較熟悉。由於剛接觸不久，所以還是以看人家的來學習。這次主要是學qt下udp的程式設計，且熟悉一些qt下的編寫流程，所以本文參照的是 qt及qt quick開發實戰精解一書中的第...

GIT的初步使用

1，安裝git工具，在希望的地方建立乙個資料夾，右鍵git bash 2,將git上庫的位址複製下來在git bash中git clone url 3，git add 檔案一種是單個檔案直接git add 檔案，一種是git 資料夾，git add 或者git add 4,git commit...

gerapy的初步使用（管理分布式爬蟲）

Gerapy 分布式爬蟲管理框架使用心得

Qt UDP的初步使用

GIT的初步使用

相關推薦