爬取下拉載入的動態網頁資訊

2021-07-25 09:22:25 字數 1216 閱讀 3712

爬取的**:

需要爬取的資訊如圖:

觀察每一部分源**,發現內容均在中,故打算用bs來寫**。

初始**為:

其中,r和page均為變數,page有很強的規律性,表示頁數,而r並沒有什麼變化的規律,所以考慮將其刪掉,再開啟**時,發現沒有什麼影響,因此可以執行了。完整**如下。

# -*- coding:utf-8 -*-

from bs4 import beautifulsoup

import urllib2

import re

for i in range(1,92):

url = ' % d' % i

user_agent = "mozilla/5.0 (windows nt 6.1; win64; x64; rv:49.0) gecko/20100101 firefox/49.0"

headers =

response = urllib2.request(url, headers = headers)

html = urllib2.urlopen(response).read()

soup = beautifulsoup(html, 'html.parser', from_encoding ='utf-8')

content = soup.find_all( "div",class_ = "grid")

for con in content:

con = con.get_text('|',strip=true).encode('utf-8')

con = con.replace('\n','')

print con

with open('nn.txt', 'a') as f:

f.write( con + '\n' )

(由於網頁在不斷更新,故這裡的頁數不是固定值。)

網路爬蟲 爬取動態網頁

import requests from bs4 import beautifulsoup res requests.get res.encoding utf 8 soup beautifulsoup res.text,html.parser commentcount soup.select one...

使用selenium爬取動態網頁評論

爬取 通過ctrl shift c定位,並且搜尋frame,定位框架所在位置 找到html iframe title livere scrolling no src style min width 100 width 100px height 6177px overflow hidden borde...

利用selenium實現動態網頁的爬取

import re from selenium import webdriver from selenium.webdriver.chrome.options import options 通過獲取關鍵字職位數量 def numberpositionsbykeyword searchword 建立c...