使用JSOUP實現網路爬蟲 解析乙個body片斷

2021-09-02 15:37:51 字數 672 閱讀 3370

使用jsoup.parsebodyfragment(string html)方法.

string html = "lorem ipsum.

";document doc = jsoup.parsebodyfragment(html);

element body = doc.body();

parsebodyfragment方法建立乙個空殼的文件,並插入解析過的html到body元素中。假如你使用正常的jsoup.parse(string html)方法,通常你也可以得到相同的結果,但是明確將使用者輸入作為 body片段處理,以確保使用者所提供的任何糟糕的html都將被解析成body元素。

document.body()方法能夠取得文件body元素的所有子元素,與doc.getelementsbytag("body")相同。

假如你可以讓使用者輸入html內容,那麼要小心避免跨站指令碼攻擊。利用基於whitelist的清除器和clean(string bodyhtml, whitelist whitelist)方法來清除使用者輸入的惡意內容。

《使用jsoup實現網路爬蟲》

網路爬蟲(二) Jsoup的使用

這裡的getelementsbytags得到的是乙個類似陣列,所以需要取第乙個值,即first,text的內容得到的是標籤內的文字內容,這裡可能會有乙個疑問,為什麼jsoup都可以直接得到網頁的內容了,還需要httpclients closeablehttpclient 因為在實際開發中,要用到多執...

使用 jsoup 解析HTML

test public void analysishtmlbystring test public void anlysishtmlbyfile throws ioexception element ele doc.getelementbyid btn system.out.println ele....

使用 jsoup 解析HTML

test public void analysishtmlbystring test public void anlysishtmlbyfile throws ioexception element ele doc.getelementbyid btn system.out.println ele....