jsoup爬蟲工具超簡單使用 記錄

2021-10-07 02:16:59 字數 1431 閱讀 5705

簡單入門案例

document document = null;

trycatch

(ioexception e)

if(document == null)

return

;//接下來獲取到了document物件,就等於獲取了頁面的所有資訊

對document的操作

通過class獲取乙個元素節點

elements list05 = document.getelementsbyclass(「list05」)

返回乙個陣列elements,本質是乙個arraylist

獲取elements的第幾個元素

element element = elements.get(index);

獲取乙個element下的所有元素…第幾個元素

elements elements = element.children();

element element = element.children(index);

判斷某個元素的內容是否為空

boolean dex = element.hastext()

獲取元素內容

string s = element.text();

獲取元素的html結構

string s = element.html();

選擇子元素下某個標籤

element.child(0).select(「div」)

獲取元素的屬性

string s = element.attr(「src」);

//處理,將讀取到目錄

private

void

dealimage

(element element,string imagename)

/** *

* @param filepath 檔案路徑

* @param imgurl url

*/public

static

void

downimages

(string filepath, string imgurl)

out.

close()

; in.

close()

;}catch

(malformedurlexception e)

catch

(ioexception e)

}

網路爬蟲(二) Jsoup的使用

這裡的getelementsbytags得到的是乙個類似陣列,所以需要取第乙個值,即first,text的內容得到的是標籤內的文字內容,這裡可能會有乙個疑問,為什麼jsoup都可以直接得到網頁的內容了,還需要httpclients closeablehttpclient 因為在實際開發中,要用到多執...

Jsoup簡單爬蟲實戰演練 解析URL

雖然爬取的都是一些特別簡單的資料。但是,為了避免出現什麼經濟糾紛,本人還是選擇以爬取自己的部落格為例來進行資料的爬取。由於本人也是剛開始學習jsoup,如果有什麼不應該出現的問題,歡迎各位批評指正。本人的部落格主頁 按f12鍵檢查 如何爬取網頁中的title標籤內容 爬取meta標籤中,conten...

使用JSOUP實現網路爬蟲 解析乙個body片斷

使用jsoup.parsebodyfragment string html 方法.string html lorem ipsum.document doc jsoup.parsebodyfragment html element body doc.body parsebodyfragment方法建立...