爬蟲獲取 解決動態載入資料和frame框架問題

2021-08-21 03:43:02 字數 1111 閱讀 5917

僅供學習參考

以網易雲排行榜為例

1、獲取動態資料可以用selenium實現

2、獲取frame框架裡面的資料,可以用下面**的方式實現

from selenium import webdriver

import time

driver = webdriver.chrome()

driver.get('')

driver.maximize_window()

# # 方法一

# # 獲取frame

## 直接切換到frame裡面

# driver.switch_to.frame('g_iframe') # frame括號裡面的是它的id

# trs = driver.find_elements_by_tag_name('tr')

# print(trs)

# 方法二

# 先獲取標籤

iframe = driver.find_element_by_id('g_iframe')

# 再切換到frame

driver.switch_to.frame(iframe)

# trs = driver.find_elements_by_tag_name('tr')

parent = driver.find_element_by_id('song-list-pre-cache')

table = parent.find_elements_by_tag_name('table')[0]

tbody = table.find_elements_by_tag_name('tbody')[0]

trs = tbody.find_elements_by_tag_name('tr')

print(trs)

for each in trs:

print(each.find_elements_by_tag_name('td')[0].text)

print(each.find_elements_by_tag_name('td')[3].find_elements_by_tag_name('div')[0].get_attribute('title'))

爬蟲系列之解決動態資料獲取 一

爬取動態頁面目前來說有兩種方法 分析請求頁面 通過selenium模擬瀏覽器獲取 分析很簡單,我們只需要開啟了瀏覽器 12開發者模式,獲取它的js請求檔案 除js選項卡還有可能在xhr選項卡中,當然也可以通過其它抓包工具 我們開啟第一財經網看看,發現無法獲取元素的內容 開啟 etwork,看下它的請...

Java java爬蟲獲取動態網頁的資料

前段時間一直在研究爬蟲,抓取網路上的特定的資料,如果只是靜態網頁就是再簡單不過了,直接使用jsoup document doc jsoup.connect url timeout 2000 get 獲取到document然後就想幹嘛就幹嘛了,但是一旦碰到一些動態生成的 就不行了,由於資料是網頁載入完...

json爬蟲獲取列表資料不全,已解決

原鏈結的資料比較多,但是通過jsoup獲取的資料差不多只有2000多條。document document jsoup.connect url timeout 4000 ignorecontenttype true useragent mozilla to mozilla 5.0 windows n...