常見的反扒機制及解決辦法

2021-10-02 05:40:38 字數 1036 閱讀 6567

總結了工作中遇到的反爬機制及解決辦法或思路,便於日後用到

1、user-agent,客戶端版本資訊

2、request, method方式不同,常見get、post

+ post,有下面這種色兒的:
formdata =

3、cookie限制

4、訪問頻率,延時訪問

5、ip,ip**

6、在html中動手腳,jquery

+ 加一些無意義的字元

+ 使用lxml解, 正則過濾 或 其他篩選方法

+ 原始碼檢視目標資訊,根據實際規則 過濾出 自己的目標資訊

+

7、ajax動態載入 具體資訊在json 中
+ 直接json.loads(html.text) 載入、解析,簡單
8、美團系,數字、文字woff字型加密
+ 找到目標woff檔案,載入出字型庫的內容,用qq截圖、識圖,識別文字

+ 載入 `from fonttools.ttlib import ttfont`,構造字典,

+ 在獲取網頁內容後,理解替換掉加密部分,

+ 再xpath解析 或 其他方式解析

+ + 聽說有每個子頁面都是使用新的woff字型庫,這種比較**的反爬,還未遇到,遇到的時候再說。。。。

++

1、大眾點評獲取店鋪聯絡**,需要登入,session 被封,無法請求到目標網頁,這個是不是只有多賬號才能解決?

2、58 查詢企業招聘資訊,使用**ip無法請求到內容,,,,這個或許是**ip池不夠大,後續優化一下再看看

3、58 手勢驗證碼。。。這個是因為沒時間搞,,,後面看看什麼情況。。。。

4、滑塊破解,一般有背景和缺口做對比

+ 但是 58 的就只有帶缺口的,這就給定位缺口位置帶來了麻煩,之前都是使用畫素對比,現在咋弄???
ds

5、搜狗平台驗證碼無法使用ocr解析??是不是太小了???待學習中,,,,,

sad蜜罐技術

Ruby常見錯誤及解決辦法

ruby常見錯誤及解決辦法 更新中.module test def add up x,y return x y endendputs add up 100,89 如上 執行出現以下兩個錯誤。錯誤1 class module name must be constant 解決方法 module名字tes...

HTTPS常見錯誤及解決辦法

問題 問題描述 解決方法 net err cert date invalid 的ssl證書有效期過期導致的 重新申請新的ssl證書 net err cert common name invalid 訪問的網域名稱和證書繫結的網域名稱不一致導致 請檢查訪問的網域名稱或者證書繫結的網域名稱是否相同 ne...

git常見衝突及解決辦法

1.內容衝突 產生衝突的原因 兩個使用者修改了同乙個檔案的同一塊區域,git會報告內容衝突。我們常見的都是這種。解決衝突的辦法 編輯衝突檔案,修改衝突。例如 衝突檔案test.c test.c發生衝突後的內容如下 include include head wide character strlen ...