資料抓取的

2021-10-20 18:36:49 字數 308 閱讀 7129

總結

在抓資料的時候 尤其是資料多的時候 幾百頁的上萬條資料

先抓主資料列表資料在根據主表抓詳情  

1.要有日誌記錄 記錄總條數 log日誌表

第一頁記錄總條數寫入日誌表,確定迴圈多少次

2.回來的資料入庫的時候做好把頁數page也帶上   萬一資料抓取過程中中斷的時候接著抓 就沒必要抓取全部了

3.詳情資料回來改主記錄 標記那些抓取過的

4.抓完之後驗證!!!!

根據log表的資料 看主記錄條數夠不夠,不夠看頁數夠不夠少哪頁的資料

詳情頁一樣看條數和主記錄能不能對應上

抓取csdn的資料

如有不明白的地方歡迎加qq群 14670545 質量不行,後面採集起來卡,原因是正則我太菜了,沒有開多執行緒採集。下面我舉例 目標頁面是有圖有真相 看看採集後的效果 下面是採集到的每個帖子樓主的內容以及一些簡單的顯示。之所以沒有顯示出來,因為csdn是用的乙個專門的伺服器,設定了防盜煉,這個自己搗鼓...

Jsoup抓取資料

首先我們來看來自 的乙個html片段,了解其結構。class detail style display block class add jrsj plus bookid 609737 em class mark63 href target blank src alt 不死龍帝 style width...

Xmind Java資料抓取

思路 1,登入。2,登入成功後獲得cookie。3,將cookie放到請求頭中,向登入頁傳送請求。1.獲得url物件 url url newurl urlstring 2.開啟連線 3.向request中注入cookie urlconn.setrequestproperty cookie cooki...