某車之家字型反爬最終版

2022-10-08 21:57:30 字數 842 閱讀 4009

前幾個版本的**, 雖然都可以解決問題, 但是有點麻煩, 如果是很多個文字, 也不能乙個乙個手敲上去, 更不能保證字型的順序不變, 這次使用pillow+ddddocr來徹底解決這個問題

思路和過程在前幾篇已經寫過了, 有什麼不明白的, 先看一下前幾篇, 鏈結放在了最下面,  原始碼也在最下面

首先獲取字型檔案unicode_map, 取出字型的ascii值和字形的名稱

然後使用pillow的 imagefont 和imagedraw,將字型轉為, 盡量將字放在中間, 切在周圍留有空白, 這樣可以提高準確率

最後使用ddddocr來識別文字, 準確率非常高

參考

反爬機制之字型反爬詳解

字型反爬,顧名思義就是利用自定義的字元編碼與字型檔案的對映呈現文字的一種反爬措施。下面我們通過例子來詳細介紹字型反爬是怎麼實現的以及解決方案。目錄字元編碼 css3 font face 規則 html檔案 example.html woff字型檔案 example.woff html顯示效果 解決方...

字型反爬之快手

快手的直播列表頁面的粉絲數用了字型反爬,之前在字型反爬之貓眼電影中提過這類問題的解決方案。字型反爬的核心是找出字型之間不變的對映關係。閱讀步驟 效果展示 專案位址 快手字型反爬專案 快手字型反爬機制圖示 不變的關係 每個請求字型檔案不同,每個字型檔案字型的筆畫不同。通過對比n個字型檔案找到乙個關係 ...

Python爬蟲 字型反爬

網頁開發者自己創造一種字型,因為在字型中每個文字都有其代號,那麼以後在網頁中不會直接顯示這個文字的最終的效果,而是顯示他的代號,因此即使獲取到了網頁中的文字內容,也只是獲取到文字的代號,而不是文字本身。因為創造字型費時費力,並且如果把中國3000多常用漢字都實現,那麼這個字型將達到幾十兆,也會影響網...