常見的反爬手段與解決方法

2021-09-25 10:44:10 字數 859 閱讀 7351

headers中的user-agent欄位反爬

解決:隨機生成user-agent

pip install fake-useragent

from fake_useragent import useragent

ua = useragent()

for i in range(10):

# 隨機生成各種瀏覽器的ua

print(ua.random)

# 隨機生成chorm的ua

# print(ua.chorme)

通過referer欄位反爬

解決:加上該欄位

通過js實現網頁跳轉

解決:通過瀏覽器nextwork中的preservelog監測頁面的跳轉

通過js加密ajax請求引數

解決:若請求引數簡單,處理攜帶即可

若請求引數加密複雜,使用selenium模組

解決:使用打碼平台

雲打碼:

能夠解決通用的驗證碼識別

極驗驗證碼智慧型識別輔助:

能夠解決複雜驗證碼的識別

驗證碼url位址

url位址不變,驗證碼不變,爬取對應url

url位址不變,驗證碼變化,是通過cookie實現的,使用requests模組的session

同一ip大量請求對方伺服器,會被認為爬蟲

解決:使用time.sleep(),但是爬取資料速度會受到影響

使用**池,購買高質量的**,比如公尺撲

比如貓眼電影的使用者評分等

解決:使用手機版,可以的話盡量使用手機端,爬取難度低於pc端

解決:計算css的反爬

一定程度上起到反爬蟲作用,提高爬取資料效能

常見的反爬手段和解決思路

誤傷 在反爬蟲的過程中,錯誤的將普通使用者識別為爬蟲。誤傷率高的反爬蟲策略,效果再好也不能用。攔截 成功地阻止爬蟲訪問。這裡會有攔截率的概念。通常來說,攔截率越高的反爬蟲策略,誤傷的可能性就越高,因此需要做個權衡。資源 機器成本與人力成本的總和。1 通過headers欄位來反爬headers中有很多...

Python 常見的反爬及解決方法 諾禾

我們都知道python用來爬資料,為了不讓自家的資料被別人隨意的爬走,你知道怎麼反爬嗎?今天播妞帶著大家一起見識見識常見的反爬技術。首先我們來看一下爬蟲程式和反爬蟲之間的一張邏輯圖 以下說4種 反爬蟲方式。1.通過user agent來控制訪問 無論是瀏覽器還是爬蟲程式,在向伺服器發起網路請求的時候...

Python常見的反爬手段和反反爬蟲方法

因為反爬蟲暫時是個較新的領域,因此有些定義要自己下 誤傷 在反爬蟲的過程中,錯誤的將普通使用者識別為爬蟲。誤傷率高的反爬蟲策略,效果再好也不能用。攔截 成功地阻止爬蟲訪問。這裡會有攔截率的概念。通常來說,攔截率越高的反爬蟲策略,誤傷的可能性就越高。因此需要做個權衡。資源 機器成本與人力成本的總和。這...