在阿里雲輕量應用伺服器上用crontab定時爬蟲

2021-09-27 11:20:16 字數 1470 閱讀 1743

這是一篇回憶型的部落格,難免有疏漏之處~

前幾天朋友詢問能不能寫乙個爬蟲每個小時爬某投票**的資料。寫好爬蟲以後在電腦上執行沒一會兒,電腦開始待機,爬不到新資料了。(我好菜

所以想了想,決定體驗一下阿里雲的伺服器(什麼理由~

也看了一些別人的部落格,需求不是特別大的話購買輕量應用伺服器就夠用了。到阿里雲伺服器的**看了看,24歲以下實名認證(用zfb認證特別快)都是9塊左右乙個月,好便宜,買!

買的時候選擇了ubuntu16.04系統~

爬蟲是用python寫的,雖然ubuntu16.04自帶了py2.7和3.5,但還是打算自己搭建新的python的環境。

看了看**,需要import的包有jsonpath、pandas和requests等等,我的本地py版本是3.7。一開始照著別的部落格裝了python3.6.5的沒成功(可能也有我自己的問題),還誤刪了/usr/bin/python,沒辦法只好退出,重置系統從頭再來(不得不說這個重置功能真是手癌的福音…

重新配置的時候決定還是搞python3.7算了,期間也是bug不斷,由於現在是回憶一遍,只能翻翻瀏覽器歷史記錄找一找看的一些解決錯誤的部落格。

阿里雲伺服器安裝python3.7.3,解決openssl問題

安裝python3.7出現modulenotfounderror: no module named 『_ctypes』解決辦法

python3.7安裝, 解決pip is configured with locations that require tls/ssl問題

python安裝pandas庫出現 no module named 『_lzma』

在ubuntu下成功執行了**以後,接下來用crontab設定定時執行任務。

(ps:沒有直接用python寫乙個定時器是因為之前這麼寫了,在自己的電腦上跑,一待機爬蟲就爬不了新資料,所以才考慮crontab)

說實話設定crontab的時候也有一些坑點~最後雖然能用了但原理還不是特別清楚,還得多看看這方面的東西。

一開始照著別的部落格說的crontab -e命令去新建乙個任務,但不知道為啥我每次儲存了,也顯示新增了新任務了,但就是沒法跑。

後來看到了這篇部落格:

ubuntu - crontab 命令定時執行任務

上面說crontab的任務儲存在/etc/crontab下,命令列輸入vi /etc/crontab檢視,竟然沒有我建立的任務。。心梗了。

行,那我就直接粗暴地寫在這個檔案裡面!

因為我想每小時爬一次資料,所以照著它的格式這麼增加一行:

0 * * * * root /python路徑 /.py檔案路徑

儲存,然後輸入service crontab restart重啟一下crontab服務,它居然就可以了。

(補充乙個當時和這位博主踩的一樣的坑:crontab 犯了乙個錯誤,每小時執行一次 * */1 * * *)

mac通過ssh連線ubuntu

關於資料的獲取,其實也考慮過伺服器爬到以後自動給我傳送郵件,但還沒有具體嘗試。

阿里雲輕量應用伺服器入門 一

本文以 wordpress 為例。登入輕量應用伺服器控制台,點選頁面右上方的 建立伺服器。在彈出的頁面上,為列出的各選項做出選擇。點選 立即購買。瀏覽訂單詳情,確認無誤後,點選 去支付。點選 確認支付。點選 進入管理控制台,在 伺服器列表中,您可以看到剛剛建立的伺服器。您的伺服器狀態從 準備中 變為...

阿里雲輕量應用伺服器與雲伺服器ECS伺服器對比優勢

通過最近和客戶的反饋,發現很多朋友有興趣短期體驗阿里雲的 輕量應用伺服器 24元每月的 而且支援香港,跟ecs相比比相當優惠。原因多種 優勢 對比阿里雲ecs香港地區,按照最低輕量的配置,1核1g1m25g的sssd硬碟,ecs 為66.9元每月。香港輕量卻僅僅24元每月,年付350元還有流量包等優...

阿里輕量應用伺服器搭建Tomcat

一 購買伺服器 這裡我糊里糊塗的買了輕量級應用伺服器,然後花費了大量的時間搭建了乙個tomcat,中間也是各種坑,這裡就分享一下,希望能幫助到後來人吧。這裡伺服器的系統為centos7 二 安裝jdk linux centos 7 jdk 1.7 安裝與配置 三 安裝tomcat 2 解壓 tar ...