網路爬蟲 爬取動態網頁

2022-03-30 10:04:29 字數 751 閱讀 2302

import

requests

from bs4 import

beautifulsoup

res = requests.get('

')res.encoding = '

utf-8

'soup = beautifulsoup(res.text,'

html.parser')

#commentcount = soup.select_one('

#commentcount1')

print(commentcount.text)

為空,這是因為儲存在js裡面了

import

json

comments = requests.get('

')comments.encoding = '

utf-8

'print

(comments)

jd = json.loads(comments.text.strip('

var data=

')) #

移除改var data=將其變為json資料

print(jd['

result

']['

count

']['

total

'])

移除 var data= 因為在獲取時字串字首是包含var data=的 其不符合json資料格式 因此轉化時需將其從請求內容中移除

動態網頁爬蟲

方式 優點缺點 分析介面 直接可以請求到資料,不需要做任何解析工作,量少,效能高 分析介面比較複雜,特別是一些通過js混淆的介面,容易被發現是爬蟲 selenium 直接模擬瀏覽器的行為,瀏覽器可以請求到的,使用 selenium 也能請求到,比較穩定 量多,效能低 selenium相當於是乙個機械...

動態網頁爬蟲

network 記錄的是從開啟瀏覽器的開發者工具到網頁載入完畢之間的所有請求。如果你在網頁載入完畢後開啟,裡面可能就是空的,我們開著開發者工具重新整理一下網頁即可 爬蟲中常用的請求型別有 all xhr img 和 media,剩下的了解一下即可 常用的請求資訊,比如請求的名稱 狀態碼 型別 資料大...

使用selenium爬取動態網頁評論

爬取 通過ctrl shift c定位,並且搜尋frame,定位框架所在位置 找到html iframe title livere scrolling no src style min width 100 width 100px height 6177px overflow hidden borde...