Jsoup爬蟲任務總結

2022-09-03 13:24:13 字數 1655 閱讀 4045

這兩周由於公司需要大量資料爬取進資料庫給使用者展示素材,在不停的做爬蟲工作,現在總算基本完成就剩清理資料的工作;

公司有乙個採集器管理後台的專案,可以直接把爬蟲**打包成jar匯入進去設定定時引數即可;

關於jsoup的一些命令使用示例:

解析html文件:

document doc = jsoup.parse(html);

從乙個url載入乙個document:

document doc = jsoup.connect("url").get();

示例乙個通常的爬蟲** :

public void testaddsbkk88epubdata()

} catch (exception e) finally }}

示例乙個模擬登入****:

private void login(string username, string password)

login.click();

webelement phonelogin = driver.findelement(by.xpath("//a[@class='do-phone-login']"));

while(phonelogin == null) catch (interruptedexception e)

}phonelogin.click();

webelement lastlogin = driver.findelement(by.xpath("//a[@class='sure-btn sure-success phone-login-btn']"));

while(lastlogin == null) catch (interruptedexception e)

}driver.findelement(by.xpath("//input[@name='phone' and @class='form-put']")).clear();

driver.findelement(by.xpath("//input[@name='phone' and @class='form-put']")).sendkeys(username);

driver.findelement(by.xpath("//input[@name='passwd' and @class='form-put']")).clear();

driver.findelement(by.xpath("//input[@name='passwd' and @class='form-put']")).sendkeys(password);

lastlogin.click();

log.info("點選登入賬號中~~~~~~~~~");

getpage();

// return focus to main window

// driver.switchto().defaultcontent();

}this.driver = new firefoxdriver(firefoxprofile);

Jsoup爬蟲學習筆記

jsoup org.jsoupgroupid jsoupartifactid 1.10.2version dependency 本次實驗物件以京東為例 key是要搜尋的關鍵字 public list querykey string key catch ioexception e 所有你在js中可以使...

網路爬蟲(二) Jsoup的使用

這裡的getelementsbytags得到的是乙個類似陣列,所以需要取第乙個值,即first,text的內容得到的是標籤內的文字內容,這裡可能會有乙個疑問,為什麼jsoup都可以直接得到網頁的內容了,還需要httpclients closeablehttpclient 因為在實際開發中,要用到多執...

jsoup爬蟲,專案實戰,歡迎收看

import com.mongodb.basicdbobject import com.mongodb.dbcollection import org.jsoup.jsoup import org.jsoup.nodes.document import org.jsoup.nodes.element...