java網頁資料爬取

2021-08-16 17:22:23 字數 2009 閱讀 1782

在瀏覽器書籤中有許多經典的東西,有時候什麼忘記了需要去查詢的,也非常方便,但是痛苦的事情是某一天開啟書籤,居然那個頁面不知道飛哪去了,打不開,作為乙個程式設計師,當然不能容忍這種事情發生,那就把它們都爬下來。

首先我們的書籤可能有幾種分類,為了處理方便,可以手動刪除我們不需要的,也可以程式處理一下;以下處理是為了爬取方便,而不是刪除不想要的。

先來看看匯出的html檔案的結構:

personal_*******_folder="true">書籤欄h3>

href=""

add_date="1481296188"

href=""

add_date="1483001064"

add_date="1520685896"

last_modified="1520694188">學習h3>

href=""

add_date="1520694161"

icon="data:image/png;base64,******">csdn-專業it技術社群a>

href=""

add_date="1520694188"

icon="data:image/png;base64,******">開源中國 - 找到您想要的開源專案,分享和交流a>

dl>

dl>

dl>

在匯出的資料中,base64,*

inputstreamreader reader = null;

bufferedreader br = null;

stringbuffer stringbuffer =new stringbuffer("");

try

line = br.readline(); // 一次讀入一行資料

} } catch (filenotfoundexception e) catch (ioexception e) finally catch (ioexception e)

}if(br!=null) catch (ioexception e)

}}

好了,資料處理完畢,

處理結果如下

href=""

add_date="1481296188"

href=""

add_date="1483001064"

href=""

add_date="1520694161"

icon="data:image/png;base64,******">csdn-專業it技術社群a>

href=""

add_date="1520694188"

icon="data:image/png;base64,******">開源中國 - 找到您想要的開源專案,分享和交流a>

還是將多餘字元用**
代替

private

static

void

parser(stringbuffer stringbuffer)

fileutil.stringtofile(data, "f:\\"+path+".html");//儲存檔案

}@override

public

void

onfailure()

});}

else

}}

}catch( exception e )

}

資料儲存完畢,再也不用擔心資料丟失了(只是實現了一點功能,儲存文字,並沒有儲存和js\css檔案,以後有時間了繼續)。

nodeJs爬取網頁資料

發現node可以爬蟲,正好我在找暑期實習,然後就使用node爬一下 資料找實習。爬取目標 載入http模組 目標 嘿嘿,這個 有很多實習職位 http的get請求乙個目標 函式的引數是response,繫結兩個事件,乙個 data 事件,會不斷觸發獲取資料,資料獲取完觸發 end 事件。爬到的的資料...

python爬取網頁資料

import refrom urllib.request import urlopen 爬取網頁資料資訊 def getpage url response urlopen url return response.read decode utf 8 defparsepage s ret re.find...

爬取網頁資料 插敘 爬取網頁資料,給寶寶取個好名字

前言 應用例項 匯入模組import requestsfrom bs4 import beautifulsoup 填寫頭請求,包括爬取網頁 headers result 暫定爬取9頁名字for i in range 1,10 url str i html r requests.get url,hea...