爬蟲解析加密字型例子58 同城

一些** 會將部分內容進行加密，防止爬蟲簡單的獲取到資訊

最近在爬取58同城的品牌公寓時遇到租房資訊裡的** 爬下來是看不懂的字型

一些資料在瀏覽器裡面顯示是正常的, 但是渲染前和渲染後的html原始碼都看不到字型, 渲染前看到的是16進製制的4位字元, 渲染後看到的是一些方塊.

然後分析了一下**的原始碼，發現他是由base64 加密之後生成的字型

那我們就可以通過正則匹配出來進行處理

首先在html原始碼裡面找到woff字型的base4編碼, 儲存成」font.woff」字型檔案, 用fonttools庫將這個字型檔案儲存為」font.xml」檔案.

然後在xml裡面找到ttglyph欄位, 這個字段下面的子字段都是用來畫字元(包括中英文數字)的座標. 同乙個字元的座標是一樣的. 解析xml, 然後把這些座標的屬性字典按順序都存到乙個list裡面, 然後序列化成json(加sort_keys=true引數)字串. 用這個字串當key, value是實際的字元, 存成乙個constant_dict. 每次遇到新網頁, 取出這個字串, 然後根據字串從constant_dict獲取實際的字元.

我們也可以借助乙個fontcreator 軟體將font.woff」字型檔案檢視

每個字型都對應了乙個uni字元，和上面方法一樣序列化成json(加sort_keys=true引數)字串. 用這個字串當key, value是實際的字元, 存成乙個constant_dict. 每次遇到新網頁, 取出這個字串, 然後根據字串從constant_dict獲取實際的字元.

但是事實並沒有這麼簡單，它的每個網頁都是變化的對應關係並不是完全一致。所以這個時候我們就可以借助tesseract工具來識別字型。

這個例子還是相比較簡單點的，我們還可以根據每個字元的點陣，找出對應關係，但是如果字型樣子改變，對應關係也就亂了。

爬蟲解析加密字型例子58 同城

python爬蟲文字加密涉及字型加密的爬蟲分析

爬蟲筆記（八）例子匹配解析

MD5 加密演算法全解析

爬蟲 解析 加密字型 例子58 同城

python爬蟲文字加密 涉及字型加密的爬蟲分析

爬蟲筆記（八） 例子匹配解析

MD5 加密演算法全解析

相關推薦

爬蟲解析加密字型例子58 同城

python爬蟲文字加密涉及字型加密的爬蟲分析

爬蟲筆記（八）例子匹配解析