Java網路爬蟲實操(2)

2021-08-15 19:50:27 字數 1682 閱讀 7316

本篇文章繼續介紹爬蟲框架netdiscovery的使用:如何發重複請求、如何用爬蟲容器引擎驅動爬蟲程式

1 )重複請求的場景舉例

從2023年下半年開始,位元幣、數字貨幣、虛擬幣、區塊鏈技術、去中心化等等新名詞頻頻出現在**上,讓人不想看到都很難。

(本篇文章不研究數字貨幣是不是未來的發展方向)

找了乙個數字貨幣的聚合資訊平台,上面會定時重新整理每種貨幣的**。如果要寫乙個有實際價值的抓資料程式,那肯定希望這個程式能重複執行抓資料的動作吧。

目標任務:每隔一段時間去獲取這個頁面上的數字貨幣【eos】的**資訊

2 )**實現

}3 )爬蟲容器引擎

數字貨幣有幾百上千種,每種貨幣資訊都在單獨的頁面上,如果要同時獲取多種數字貨幣的資訊,怎麼處理?

依賴框架,有一種實現方法是:給每種數字貨幣定義乙個爬蟲程式,然後把爬蟲程式放到容器裡,統一交給爬蟲引擎去驅動。

**示例:

}訪問容器狀態的介面:返回的內容:

],

"message":"success"

}

4 )總結

本篇簡單介紹了netdiscovery中發重複請求這個功能。這就是框架的價值,如果不用框架,自己再去實現的話,要多寫一些**的。爬蟲引擎還有很多功能,敬請期待。

今天是西方情人節,祝天下有情人節日快樂!

祝大家身體健康、家庭和睦、工作順利!

JAVA 實現網路爬蟲

class bde image src width 560 height 314 pic type 0 public class task implements runnable override public void run image.write buf,0,len 儲存到本地 image.c...

爬蟲 2初學Python網路爬蟲

2 網路爬蟲的限制 3 robotst協議 4 robots協議的遵守方式 web伺服器預設接收人類訪問,受限於編寫水平和目的,網路爬蟲將會為web伺服器帶來巨大的資源開銷 伺服器上的資料有產權歸屬,網路爬蟲獲取資料後牟利將帶來法律風險 網路爬蟲可能具備突破簡單訪問控制的能力,獲得被保護資料 從而洩...

Python 網路爬蟲 2

1 urlopen 方法中有乙個可選引數timeout,用於設定連線的超時時間,單位秒 2 如何從urlopen 的返回物件中獲取http狀態碼 resp urllib.request.urlopen url code response.getcode 3 在客戶端和伺服器之間進行請求 響應時,常用...