python爬蟲高階 無頭瀏覽器的使用

2021-09-23 08:02:09 字數 1289 閱讀 5271

1、phantomjs+selenium

示例**

def phantomjs_url_test(url=''):

dcap = dict(desiredcapabilities.phantomjs)

dcap["phantomjs.page.settings.useragent"] = (

)# dcap["phantomjs.page.settings.loadimages"] = false

driver = webdriver.phantomjs(desired_capabilities=dcap, executable_path='/users/tv365/phantomjs-2.1.1-macosx/bin/phantomjs')

driver.get(url)

video_url = driver.find_element_by_xpath("//video/@src")

driver.quit()

return video_url

解壓完成後,配置phantomjs的路徑即可,示例:

2、google無頭模式+selenium

瀏覽器版本:chrome 70.0.3538.77 驅動版本:linux243,mac243

伺服器安裝谷歌瀏覽器 伺服器安裝谷歌瀏覽器:

**示例:

def google_driver(url):

chrome_options = webdriver.chromeoptions()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--no-sandbox')

chrome_options.add_argument('--disable-gpu')

client = webdriver.chrome(chrome_options=chrome_options, executable_path='/soft/chromedriver')

# executable_path谷歌driver的路徑

client.get(url)

content = client.page_source

print(content)

client.quit()

pass

google_driver('')

3、firefox無頭模式+selenium

4.關於selenium的一些進度條滾動等操作(實質上是直接執行js)

爬蟲高階路程5 無頭瀏覽器的坑

本來以為經歷前面四道坑,算是走到了反爬的頂端,沒想到不到三個月再次倒下了,因為之前的爬蟲程式突然被反爬了,怎都拿不到資料,一開始以為自己的 ip被封了,但是我乙個乙個試,換了好多個 ip,沒有乙個有用的,難道天下所有的ip都被封了嘛。一開始我是這麼認為的。乙個偶然,就是我用本地的瀏覽器來爬資料,是可...

selenium設定谷歌瀏覽器「無頭」模式

我們在做自動化測試的時候,經常會調起瀏覽器然後根據測試 進行業務操作,但是往往我們在將自動化進行持續整合的時候我們往往不希望總是調起瀏覽器進行業務操作,所以我們可以講瀏覽器進行設定 無頭 模式進行自動化測試 設定 如下 system.setproperty webdriver.chrome.driv...

Python 爬蟲瀏覽器偽裝技術

瀏覽器偽裝技術實戰 1 常見的反爬蟲和應對方法 前兩種比較容易遇到,大多數 都從這些角度來反爬蟲。第三種一些應用ajax的 會採用,這樣增大了爬取的難度。通過headers反爬蟲 基於使用者行為反爬蟲 動態頁面的反爬蟲 2 請求頭headers介紹 1 請求 客戶端 服務端 request get ...