jsoup網頁內容抓取分析 2

2021-09-01 15:43:38 字數 1511 閱讀 2005

下面寫些我的使用記錄,希望大家如果能從我的方法中得到啟發,鑑於本人從事開發工作不久,內容可能寫的不是很好。

jsoup資料獲取有兩大方法:1.通過分析dom模型的網頁標籤和元素,2.select元素選擇器,類似jquery方式(功能很強大,還支援正規表示式)。網頁tag標籤有body,div,table,tr,td,a,等等。元素的屬性有,href,title,width,height,color等等,元素屬性的值就是,例如:href=「www.baidu.com」, 值就是www.baidu.com 。width=「98%」 值就是98%

下面就以分析首頁的每日資訊為例,抓取每日資訊的標題和url位址,詳細寫出分析步驟:

1.用chrome瀏覽器的元素審查,分析頁面的結構,得到每日資訊是div class=層裡面

2.寫程式分析,首先根據url獲取div文字,再來根據文字對內容進行分析

/**

* 根據jsoup方法獲取htmlcontent

* 加入簡單的時間記錄

* @throws ioexception

*/public static string getcontentbyjsoup(string url) catch (ioexception e)

system.out.println(content);

return content;

}

3. 根據整個每日資訊所在的div層,獲取那段內容(精確獲取)

/**

* 使用jsoup來對文件分析

* 獲取目標內容所在的目標層

* 這個目標層可以是div,table,tr等等

*/public static string getdivcontentbyjsoup(string content)

4.根據獲取的目標層得到你所要的內容(title,url位址...等等)

/**

* 使用jsoup分析divcontent

*/public static void getlinksbyjsoup(string divcontent)

}

5.加入main方法裡面執行測試

/**

* @method 測試獲取內容程式

*/public static void main(string args) throws ioexception

6.附上結束語:jsoup功能很好很強大,附上的只是簡單的使用方法,還有很多需要完善的內容,我其實使用也不到幾天的時間。還有就是select功能還是很好用的,具體參考官方文件,寫的非常的通俗易懂!附上程式原始碼和jsoup的jar包

網頁內容抓取

之前採用xpath和正規表示式對網頁內容進行抓取,發現在有的地方不如人意,就採用了htmlparser對頁面進行解析,抓取需要的東西。htmlparser有點不好的地方在於不能對starttag和endtag進行匹配。採用了兩種方法進行抓取。第一種,抓取成對的tag之間的內容,採用了queue.qu...

urllib2抓取網頁內容

urllib和urllib2 1 urllib 僅可以接受 url,urllib2 可以接受 個設定了 headers 的 request 類例項。這表示我們可以偽裝 的 user agent 字串等。2 urllib 提供 urlencode 法 來 get 查詢字串的產 urllib2 沒有。這...

android使用jsoup來抓取網頁資料

首先去官網 這次爬取的是某網的資料 本次爬取僅為測試,不得用於商業用途,用於商業用途與本人無關 在瀏覽器中檢視頁面的原始碼,找到我們要爬的資料 整個條目的網頁 如下 1.根據條目的class來定位我們要抓取的資料 elements elementsbyclass doc.getelementsbyc...