編寫java多執行緒爬蟲程式

2021-09-13 02:23:53 字數 731 閱讀 4095

所謂爬蟲程式,就是模擬瀏覽器傳送http請求給web**。

這裡我們實現乙個這樣的爬蟲程式:列出segmentfault**中指定使用者所有文章及其閱讀人數的程式

基本思路是這樣的:

1我們進入某使用者的文章列表頁

2獲得文章列表

3對文章逐個訪問

4獲取文章頁面的閱讀數

比如以我的主頁舉例

1:進入文章列表頁

我的的列表頁是:這個

然後檢視html**,找到文章對應的url所在標籤

格式是這樣的href="/a/1190000017542212"

我們知道這裡有用的資訊是文章號,也就是1190000017542212這個,有了文章號,一會就可以利用這個

拼接成文章的url,也就是文...。具體來講就是

11...

2:獲得文章列表,就是獲得所有文章號,利用正規表示式把獲取的html文字中的文章號取出。

3:對文章逐個訪問,就是逐個訪問用文章號拼成的url。

4:同樣利用正規表示式把獲取到的html文字中的閱讀數取出。

5:以上步驟都是由程式來完成!

最後是**

這個**只實現了訪問文章,也就是到3,不過由於正規表示式的原理一樣,有興趣的讀者可以自行修改

實現!!!

java多執行緒爬蟲設計

爬取徽州建築的,後期用於徽州建築的分類處理。解析機器定時向排程器傳送訊息,告訴排程器自己當前處理了多少任務,排程器根據解析器處理的任務數,向解析器的佇列傳送對應量的url資料。整個大環境下,排程器與解析器形成生產者消費者佇列 小環境下,解析器自己有生產者阻塞佇列,消費者執行緒池。好處 根據不同機器當...

爬蟲多執行緒

多執行緒在之前的scrapy裡面已經接觸過了,就是裡面的yiled,開啟乙個新的執行緒。但是這是這是基於這個高階框架的,用的時候只知道這是開啟了乙個新的執行緒,並不是很清楚到底是怎麼執行的。而在python裡面有包 import threading引入這個包之後就可以寫自己的多執行緒了 寫多執行緒的...

多執行緒爬蟲

python標準庫是執行緒之間常見的資料交換形式 queue的使用可以確保python的執行緒安全 q queue.queue maxsize 建立佇列,並可以指定大小 q.empty 判斷佇列是否為空 q.full 判斷佇列是否滿 q.put data 向佇列中放入資料 q.get 從佇列中拿資料...