字型反爬第一步弄清楚字元編碼

字型反爬，顧名思義就是利用自定義的字元編碼與字型檔案的對映呈現文字的一種反爬措施。

在許多**採用字型反爬策略，即替換一些字元的unicode編碼並且將生成的字型檔案加密後傳輸到前端，由前端解析並顯示正常的字元。

部分參考崔老師的一篇部落格這篇部落格講述了處理字型反爬最初思路。但該部落格只提供了大致的處理思路，受部落格的啟發，我整理了另一直做法來克服多個頁面的不同漢字的變化。

首先，我們要大致理解字型反爬是怎麼實現的。在崔老師的部落格中提及到ttf檔案以及對應的xml檔案。觀察內容，xml檔案中包含了一些對映以及字型內容。這裡所謂的字型內容就是這個字的字形資料，通過這些字形資料，能勾畫出字元。我們找到這個字形資料是通過unicode編碼以及對映在檔案裡找到對應的ttglyph標籤。所以當我們使用的是服務端傳來的字型檔案時，能根據傳來的「錯誤的」unicode編碼去找到正確的字形資料並展示到頁面上。個人猜測，服務端根據要返回的敏感資訊的字生成臨時的字型檔案，並設新的unicode編碼，返回時將字型檔案內容加密傳給前端，前端一律使用生成的字型檔案，所以能解析傳來的unicode編碼。同時因為字型檔案是會重新整理生成的，所以崔老師部落格裡的**偶爾會失效。在理清了字型反爬後，我們就可以開始做出相應的處理。

字型爬蟲就是使用類似自定義的字元編碼的形式來呈現文字，字元編碼的詳細資訊見如下

html裡可以用 &#字元編碼; 表示乙個字元，x表示編碼值用十六進製制表示未表示字元編碼為十六進製制672a的字元，就是中文「未」字。

特殊符號

命名實體

十進位制編碼

特殊符號

命名實體

十進位制編碼

特殊符號

命名實體

十進位制編碼αα

αβββ

γγγδ

δδεε

εζζζ

ηηηθ

θθιι

ικκλ

λλμμ

μννν

ξξξο

οοππ

πρρρ

σσστ

ττυυ

υφφφ

χχχψ

ψψωω

ωααα

βββγ

γγδδ

δεεε

ζζζη

ηηθθ

θιιι

κκλλ

λμμμ

νννξ

ξξοο

οπππ

ρρρς

ςςσσ

στττ

υυυφ

φφχχ

χψψψ

ωωωϑ

ϑϑϒϒ

ϒϖϖϖ

•••…

……′′

′″″″

‾‾‾⁄

⁄⁄℘℘

℘ℑℑℑ

ℜℜℜ™

™™ℵℵ

ℵ←←←

↑↑↑→

→→↓↓

↓↔↔↔

↵↵↵⇐

⇐⇐⇑⇑

⇑⇒⇒⇒

⇓⇓⇓⇔

⇔⇔∀∀

∀∂∂∂

∃∃∃∅

∅∅∇∇

∇∈∈∈

∉∉∉∋

∋∋∏∏

∏∑∑−

−−−∗

∗∗√√

√∝∝∝

∞∞∞∠

∠∠∧∧

⊥∨∨⊦

∩∩∩∪

∪∪∫∫

∫∴∴∴

∼∼∼≅

≅≅≈≈

≅≠≠≠

≡≡≡≤

≤≤≥≥

≥⊂⊂⊂

⊃⊃⊃⊄

⊄⊄⊆⊆

⊆⊇⊇⊇

⊕⊕⊕⊗

⊗⊗⊥⊥

⊥⋅⋅⋅

⌈⌈⌈⌉

⌉⌉⌊⌊

⌊⌋⌋⌋

◊◊◊♠

♠♠♣♣

♣♥♥♥

♦♦♦

¡¡¡¢¢¢£

££¤¤

¤¥¥¥

¦¦¦§

§§¨¨

¨©ªª

ª«««

¬¬¬

®®

®¯¯¯

°°°±

±±²²

²³³³

´´´µ

µµ""

>''

這裡只是曾獻部分的，詳細編碼鏈結如下：

字型反爬第一步弄清楚字元編碼

Python爬蟲反爬蟲第一步

踏出第一步

邁出第一步

字型反爬 第一步弄清楚字元編碼

Python爬蟲 反爬蟲第一步

踏出第一步

邁出第一步

相關推薦

字型反爬第一步弄清楚字元編碼

Python爬蟲反爬蟲第一步