爬蟲selenium基本操作

2021-10-04 15:25:26 字數 922 閱讀 8011

from selenium import webdriver

import time

from lxml import etree

driver = webdriver.chrome(

)#需要把chromedriver放到python根目錄。

driver.get(

'')time.sleep(3)

# 等待頁面開啟

html = driver.page_source # 獲取頁面html

driver.quit(

)# 關閉瀏覽器,節省資源

html = etree.html(html)

# 職位資訊 此處用xpath語法

tit_infor = html.xpath(

'//h3/text()'

)# 薪資待遇

money_infor = html.xpath(

'//span[@class="money"]/text()'

)# 位址

addr_infor = html.xpath(

'//span[@class="add"]/em/text()'

)for title,money,addr in

zip(tit_infor,money_infor,addr_infor)

:# 拆包

# print(title,money,addr)

with

open

('lagou.txt'

,'a'

,encoding=

'utf-8'

)as fp:

# 此處用'a',原因是可以一直往裡面新增資料。

fp.write(title+money+addr+

'\n'

)

selenium 基本操作

from selenium import webdriver import time 啟動與瀏覽器的會話 driver webdriver.chrome 瀏覽器操作 driver.get 瀏覽器最大化 driver.maximize window 重新整理 driver.refresh 後退 到上乙...

Selenium 基本函式操作

from selenium import webdriver from selenium.webdriver.common.keys import keys 鍵盤輸入 from selenium.webdriver.common.action chains import actionchains 滑...

Python 爬蟲利器 Selenium

前面幾節,我們學習了用 requests 構造頁面請求來爬取靜態網頁中的資訊以及通過 requests 構造 ajax 請求直接獲取返回的 json 資訊。還記得前幾節,我們在構造請求時會給請求加上瀏覽器 headers,目的就是為了讓我們的請求模擬瀏覽器的行為,防止被 的反爬蟲策略限制。今天要介紹...