Python爬蟲遇到法語 變成 u00e9

2021-09-17 23:29:25 字數 887 閱讀 9812

用python爬蟲過程中,尤其是爬取國外**時候會發現出現一些\u00e9,\u00e8這種

檢視原網頁發現是一些法文,如é,à,ù等

其實都是不同編碼包含內容不同的問題

一般我們用python儲存資料到檔案時候是先編碼為其他的編碼集,比如gbk,或者常用的utf-8

在這兒我們需要的是它原始資訊,所以需要資料原始資訊,這兒就要提到unicode-escape編碼集

unicode-escape編碼集是將unicode通過記憶體編碼值直接儲存,這正是我們所需要的

所以只要對網頁內容通過unicode-escape直接decode就可以了,不過需要注意的是這時候資料型別是unicode型別的

這時候內容就會變成法語音標的資訊了

如果還想把法語改為utf-8的網頁內容就繼續往下看吧~

直接上圖:

記得先引用unicodedata包哦~

normalize()的意思是將其標準化,第乙個引數可選的有「nfc」,「nfd」,「nfkc」,「nfkd」

其中,nfc表示字元是乙個整體,nfd表示字元是多個字串合併起來的,所以其標準化後的長度也不一樣,nfc的比nfd的要短

同理,nfkc和nfkd也大致是同乙個意思,不過這兩個新增了相容性,一般推薦用這兩個

而對於後面的decode來說,其函式原型是decode([encoding], [errors='strict'])

第乙個引數就是你需要編碼的型別

第二個引數控制錯誤處理的策略,預設的引數就是strict,代表遇到非法字元時丟擲異常,它還可以選擇為ignore,replace和xmlcharrefreplace 這三個分別代表的意思是忽略非法字元,用?代替非法字元,用xml的字元引用

最後再對相應的字串改為utf-8就完全從原來的法語改為英語字母啦~~

Python爬蟲遇到法語 變成 u00e9

用python爬蟲過程中,尤其是爬取國外 時候會發現出現一些 u00e9,u00e8這種 檢視原網頁發現是一些法文,如 等 其實都是不同編碼包含內容不同的問題 一般我們用python儲存資料到檔案時候是先編碼為其他的編碼集,比如gbk,或者常用的utf 8 在這兒我們需要的是它原始資訊,所以需要資料...

Python 爬蟲中遇到的反爬蟲問題

源 一般會有下面幾種限制 1 一定時間內單個ip訪問次數,乙個正常使用者訪問 除非是隨意的點著玩,否則不會在一段持續時間內過快訪問乙個 持續時間也不會太長,我們可以採用大量不規則 ip形成乙個執行緒池,隨機從 池中選擇 模擬訪問。有兩種,透明 和匿名 2 一定時間內單個賬號訪問次數,如果乙個人一天2...

python遇到 u 開頭的unicode編碼

web資訊中常會遇到 u4f60 u597d 型別的字元。首先 u 開頭就基本表明是跟unicode編碼相關的,u 後的16進製制字串是相應漢字的utf 16編碼。python裡decode 和encode 為我們提供瞭解碼和編碼的方法。其中decode unicode escape 能將此種字串解...