python 爬蟲selemium用法歸結

2021-08-20 11:22:26 字數 744 閱讀 1118

selenium是一套提供編寫功能以及驗收測試的api。利用這個,可以很直觀的接觸到selenium webdriver的所有功能,並且還被多個瀏覽器所接受。

安裝selenium首先在終端中 輸入 

pip install selenium

#coding = utf-8  

from selenium import webdriver

from selenium.webdriver.common.keys import keys

#匯入相對應的包

driver = webdriver.chrome() #利用chrome來展示例項

driver.get('') #開啟網頁

assert 'python' in driver.title #判斷頁面資訊中是否含有「python」,注意大小寫

elem = driver.find_element_by_name('q') #webdriver中有多種find_element_by*的方式來進行查詢

elem.send_keys('pycon')  #send_keys用來代替鍵盤鍵入

elem.send_keys(keys.return)

assert 'no results found.' not in driver.page_source #提交頁面返回結果

driver.close()

儲存指令碼並執行。

python爬蟲 非同步爬蟲

壞處 無法無限制的開啟多執行緒或者多程序。執行緒池 程序池 適當使用 使用非同步實現高效能的資料爬取操作 人多力量大 環境安裝 pip install aiohttp 使用該模組中的clientsession 2表示同時存在兩個協程 pool pool 2 urls for i in range 1...

Python爬蟲 初識爬蟲

模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料 瀏覽器開啟網頁的過程 當你在瀏覽器中輸入位址後,經過dns伺服器找到伺服器主機,向伺服器傳送乙個請求,伺服器經過解析後傳送給使用者瀏覽器結果,包括html,js,css等檔案內容,瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果 瀏覽器傳送訊息給...

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...