爬蟲系列之解決動態資料獲取 一

2022-08-20 19:57:16 字數 648 閱讀 7733

爬取動態頁面目前來說有兩種方法

分析請求頁面

通過selenium模擬瀏覽器獲取

分析很簡單,我們只需要開啟了瀏覽器f12開發者模式,獲取它的js請求檔案(除js選項卡還有可能在xhr選項卡中,當然也可以通過其它抓包工具)

我們開啟第一財經網看看,發現無法獲取元素的內容

開啟network,看下它的請求,這裡我們只看它的js請求就夠了

將它的url放到瀏覽器看下

我們觀察url的規律可以看到每次末尾的url都自增1,這樣我們就可以重構請求來獲取資料,貼下**

這裡的數值1584是小編手動試出來的,還有一種方法就是直接while迴圈,在判斷返回值,如果還有更好的方法,請告知下小編

有時候,一些**所有的介面都進行了加密操作,我們無法解析js,就必須採用selenium+phantomjs進行獲取,具體使用請看另一篇。

爬蟲獲取 解決動態載入資料和frame框架問題

僅供學習參考 以網易雲排行榜為例 1 獲取動態資料可以用selenium實現 2 獲取frame框架裡面的資料,可以用下面 的方式實現 from selenium import webdriver import time driver webdriver.chrome driver.get driv...

Java java爬蟲獲取動態網頁的資料

前段時間一直在研究爬蟲,抓取網路上的特定的資料,如果只是靜態網頁就是再簡單不過了,直接使用jsoup document doc jsoup.connect url timeout 2000 get 獲取到document然後就想幹嘛就幹嘛了,但是一旦碰到一些動態生成的 就不行了,由於資料是網頁載入完...

json爬蟲獲取列表資料不全,已解決

原鏈結的資料比較多,但是通過jsoup獲取的資料差不多只有2000多條。document document jsoup.connect url timeout 4000 ignorecontenttype true useragent mozilla to mozilla 5.0 windows n...