使用JSOUP實現網路爬蟲解析乙個body片斷

使用jsoup.parsebodyfragment(string html)方法.

string html = "lorem ipsum.
";document doc = jsoup.parsebodyfragment(html);
element body = doc.body();

parsebodyfragment方法建立乙個空殼的文件，並插入解析過的html到body元素中。假如你使用正常的jsoup.parse(string html)方法，通常你也可以得到相同的結果，但是明確將使用者輸入作為 body片段處理，以確保使用者所提供的任何糟糕的html都將被解析成body元素。

document.body()方法能夠取得文件body元素的所有子元素，與doc.getelementsbytag("body")相同。

假如你可以讓使用者輸入html內容，那麼要小心避免跨站指令碼攻擊。利用基於whitelist的清除器和clean(string bodyhtml, whitelist whitelist)方法來清除使用者輸入的惡意內容。

《使用jsoup實現網路爬蟲》

使用JSOUP實現網路爬蟲解析乙個body片斷

網路爬蟲（二） Jsoup的使用

使用 jsoup 解析HTML

使用 jsoup 解析HTML

使用JSOUP實現網路爬蟲 解析乙個body片斷

網路爬蟲（二） Jsoup的使用

使用 jsoup 解析HTML

使用 jsoup 解析HTML

相關推薦

使用JSOUP實現網路爬蟲解析乙個body片斷