scrapy爬蟲部署

2022-01-24 08:00:58 字數 2012 閱讀 7837

在開始之前先要吐槽一下csdn,昨晚懷著激動得心情寫下了我人生中的第一篇博文,今天審核通過後發現所有的都不見了,瞬間就不開心了。所以不得不又申請了的賬號,重新開始。

前段時間一直研究通用爬蟲,做的過程中也是各種問題,不過好在磕磕絆絆搞出點眉目,中間學到了不少東西,感覺網際網路真的好神奇。

但是接下來問題來了,寫的爬蟲不能老在自己機器上跑吧,如何部署到伺服器上呢,然後就開始研究scrapyd。網上搜了很多資料,都在介紹scrapy deploy命令,但是我在機器上安裝上scrapyd之後,怎麼執行都是提示沒有deploy這個命令,真是奇怪,為什麼別人都可以呢。經過幾番波折,終於在最新的官方文件裡面找到了答案。附上位址和截圖:

本以為往後就會順利一點,但是安裝了scrapyd-client以後執行,還是一直提示沒有scrapy-client命令。群裡請教,網上查資料都沒有解決,在我快絕望的時候終於在stack overflow上找到了答案。附上位址和截圖:

根據人家提供的方法一試,果然ok,感覺so真的好強大。

解決了以上問題,下面的部署就順利的多了。記一下以方便以後查閱,也給像我一樣的菜鳥一點參考。

我的scrapy.cfg設定如下:

[deploy:scrapyd1]

url =

project = crawler

1. 啟動scrapyd

在要部署的伺服器上啟動scrapyd。顯示以下內容表示啟動成功。

預設的埠是6800。可以在瀏覽器中檢視結果,比如:。顯示效果如下:

可以點選jobs檢視爬蟲運**況:

2. 發布工程到scrapyd

scrapyd-deploy -p

首先要切換目錄到專案所在路徑,然後執行下列指令:

3. 驗證是否發布成功

scrapyd-deploy -l

如果現實專案名稱,表示發布成功。

scrapyd-deploy -l scrapyd1

也可以用scrapyd-deploy -l

4. 啟動爬蟲

通過頁面可以實時監控爬蟲執行效果:

5. 終止爬蟲

部署過程中可能會有很多錯誤,包括缺少第三方庫啥的,自己根據提示即可解決。

以上只是對scrapyd的初步了解,很多深層的內容等慢慢研究以後會持續更新總結。如果以上內容**有不對的地方,請各位朋友及時回覆交流,小弟在此謝過。

部署scrapy爬蟲

pip install scrapyd 1 新建資料夾,用來放之後的專案檔案 在部署的專案資料夾裡開啟乙個服務 cmd管理員執行 spiderd 預設的訪問位址 是 http localhost 6800 如果啟動成功,可以看到jobs裡面的 內容即是要部署上去的scrapy服務,現在還沒部署 2 ...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...