利用selenium實現動態網頁的爬取

2021-10-01 17:56:16 字數 1450 閱讀 9537

import re

from selenium import webdriver

from selenium.webdriver.chrome.options import options

# 通過獲取關鍵字職位數量

def numberpositionsbykeyword

(searchword)

: # 建立chrome引數物件

chrome_options =

options()

# 把chrome設定成無介面模式,不論windows還是linux都可以,自動適配對應引數

chrome_options.

set_headless()

# 模擬瀏覽器開啟網頁

url =

""+ searchword +

",2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2c0&radius=-1&ord_field=0&confirmdate=9&fromtype=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="

browser = webdriver.

chrome

(executable_path =

,chrome_options = chrome_options)

browser.

get(url)

# 設定智慧型等待時間

browser.

implicitly_wait(20

) pagestr = browser.page_source

# 正規表示式

()只要括號內的資料

restr =

"""rt">([\s\s]*?)"""

regex = re.

compile

(restr, re.

ignorecase

) mylist = regex.

findall

(pagestr)

changestr = mylist[0]

.strip()

restr =

"(\\d+)"

regex = re.

compile

(restr, re.

ignorecase

) mylist = regex.

findall

(changestr)

browser.

quit()

return mylist[0]

numberpositionsbykeyword

("資料分析師"

)

使用selenium爬取動態網頁評論

爬取 通過ctrl shift c定位,並且搜尋frame,定位框架所在位置 找到html iframe title livere scrolling no src style min width 100 width 100px height 6177px overflow hidden borde...

利用selenium獲取動態頁面的html資料

selenium呼叫瀏覽器獲取動態html值,再呼叫其api,可以很方面獲取動態資料。經測試,確實簡單易用,至於效率方面就沒細究了。參考 向原作者致敬 前言 我看其他文章中說到設定環境變數path,還提及selenium server和selenium rc,我這篇文章沒那麼複雜,沒有設定path,...

利用python實現動態陣列

說動態陣列之前,首先要說陣列,陣列是一種順序儲存的線性表,所有元素的記憶體位址都是連續的。陣列的最大優點是他的查詢時間複雜度能夠達到o 1 但是增和刪的時間複雜度較高o n 動態陣列,即根據使用者的輸入動態擴充或縮小當前陣列的容量。在python中,已經內建了動態陣列,叫做列表,list 下面是利用...