反爬蟲策略總結

2022-09-13 17:18:12 字數 570 閱讀 9562

反爬策略

1. 最常見的 ip檢測,ua檢測

2. cookie檢測

3. 需要登陸,又衍生各種出登陸驗證,驗證碼,滑塊等

4. 引數加密:包括請求引數加密和返回資料加密。

大致分為兩大塊:js加密及css反扒

js加密需要進行js逆向解析,常見有rsa,aes, des, md5,  base64 及一些自定義加密:如字串置換

css反爬包含css字型反爬(如大眾點評,貓眼電影等),隱式style-css反爬(

反反爬策略:

js加密 可以看我部落格,雖然也寫的一般般,僅供參考。

css字型反爬也可以參考我部落格。

隱式style-css反爬請參考:

js逆向分析時會碰到:

解決方案:

1.  f12  source  右邊 粗箭頭帶個斜槓的 圖示,關掉斜槓,禁止debugger,記得需要的時候再開啟

2   找到js**裡debugger那幾行,右鍵新增「add conditional breakpoint」並在出現的對話方塊中輸入「false」

參考:1. 

2. 參考: 

python反爬蟲策略 python反爬蟲手冊

user agent識別 修改請求頭資訊裡的user agent 請求頭資訊識別 比如說referer,content type,請求方法 post,get 構造相應的請求頭資訊。比如說referer,我們在提取url的時候,要把url所在頁面的url也儲存起來,並放到request.headers...

Scrapy繞過反爬蟲策略

方法1 修改setting.py中的user agent user agent 方法2 修改setting中的default request headers default request headers 也就是不啟用cookies middleware,不向server傳送cookies,有些 通...

爬蟲反爬機制及反爬策略

參考 爬蟲是一種模擬瀏覽器對 發起請求,獲取資料的方法。簡單的爬蟲在抓取 資料的時候,因為對 訪問過於頻繁,給伺服器造成過大的壓力,容易使 崩潰,因此 維護者會通過一些手段避免爬蟲的訪問,以下是幾種常見的反爬蟲和反反爬蟲策略 爬蟲與反爬蟲,這相愛相殺的一對,簡直可以寫出一部壯觀的鬥爭史。而在大資料時...