Python反爬手段之User Agent池

2021-09-26 05:26:49 字數 1724 閱讀 2522

user-agent即使用者**,簡稱ua,它是乙個特殊字串頭,使得伺服器能夠識別客戶使用的作業系統及版本、cpu型別、瀏覽器及版本瀏覽器渲染引擎、瀏覽器語言、瀏覽器外掛程式等。

一些**常常通過判斷ua來給不同的作業系統、不同的瀏覽器傳送不同的頁面,因此可能造成某些頁面無法在某個瀏覽器中正常顯示,但通過偽裝ua可以繞過檢測。

【標準格式】:

瀏覽器標識 (作業系統標識; 加密等級標識; 瀏覽器語言) 渲染引擎標識 版本資訊

mozilla/

5.0(macintosh; intel mac os

x537.36

(khtml

, like gecko) chrome/

76.0

.3809

.100 safari/

537.36

mozilla/

5.0(windows nt

6.3;

wow64

537.36

(khtml

, like gecko) chrome/

33.0

.1750

.29 safari/

537.36

反爬更好的方式是使用user-agent池來解決(如隨機生成user-agent)

import random

def get_ua()

: first_num = random.

randint(55

,76) third_num = random.

randint(0

,3800

) fourth_num = random.

randint(0

,140

) os_type =

['(windows nt 6.1; wow64)'

,'(windows nt 10.0; wow64)'

,'(x11; linux x86_64)'

,'(macintosh; intel mac os x 10_14_5)'

] chrome_version =

'chrome/{}.0.{}.{}'

.format

(first_num, third_num, fourth_num)

ua =

' '.

join([

'mozilla/5.0'

, random.

choice

(os_type),,

'(khtml, like gecko)'

, chrome_version,

'safari/537.36'])

return ua

執行結果:

mozilla/

5.0(macintosh; intel mac os

x537.36

(khtml

, like gecko) chrome/

69.0

.2389

.22 safari/

537.36

爬蟲基礎3 反爬手段

1.user agent user agent中文名為使用者 簡稱 ua,它是乙個特殊字串頭,使得伺服器能夠識別客戶使用的作業系統及版本 cpu 型別 瀏覽器及版本 瀏覽器渲染引擎 瀏覽器語言 瀏覽器外掛程式等。2.ip 西次 快 什麼是高匿名 匿名和透明 它們有什麼區別?1.使用透明 ip,對方伺...

反爬手段以及應對的方法

概念 前言weixin.sogou.com 是乙個反爬極其嚴厲的站點。ip位址,cookie,驗證碼都有限制。尤其對cookie的限制 爬取 sogou.weixin.com 的 http 請求的 cookie 中,必須包含四個引數 snuid suid ppinf 和ppmdig。其中 snuid...

Python常見的反爬手段和反反爬蟲方法

因為反爬蟲暫時是個較新的領域,因此有些定義要自己下 誤傷 在反爬蟲的過程中,錯誤的將普通使用者識別為爬蟲。誤傷率高的反爬蟲策略,效果再好也不能用。攔截 成功地阻止爬蟲訪問。這裡會有攔截率的概念。通常來說,攔截率越高的反爬蟲策略,誤傷的可能性就越高。因此需要做個權衡。資源 機器成本與人力成本的總和。這...