Python爬蟲遇到法語變成 u00e9

用python爬蟲過程中，尤其是爬取國外**時候會發現出現一些\u00e9,\u00e8這種

檢視原網頁發現是一些法文,如é，à，ù等

其實都是不同編碼包含內容不同的問題

一般我們用python儲存資料到檔案時候是先編碼為其他的編碼集，比如gbk,或者常用的utf-8

在這兒我們需要的是它原始資訊，所以需要資料原始資訊，這兒就要提到unicode-escape編碼集

unicode-escape編碼集是將unicode通過記憶體編碼值直接儲存，這正是我們所需要的

所以只要對網頁內容通過unicode-escape直接decode就可以了,不過需要注意的是這時候資料型別是unicode型別的

這時候內容就會變成法語音標的資訊了

如果還想把法語改為utf-8的網頁內容就繼續往下看吧~

直接上圖：

記得先引用unicodedata包哦~

normalize()的意思是將其標準化，第乙個引數可選的有「nfc」，「nfd」，「nfkc」，「nfkd」

其中，nfc表示字元是乙個整體，nfd表示字元是多個字串合併起來的，所以其標準化後的長度也不一樣，nfc的比nfd的要短

同理，nfkc和nfkd也大致是同乙個意思，不過這兩個新增了相容性，一般推薦用這兩個

而對於後面的decode來說，其函式原型是decode([encoding], [errors='strict'])

第乙個引數就是你需要編碼的型別

第二個引數控制錯誤處理的策略，預設的引數就是strict，代表遇到非法字元時丟擲異常，它還可以選擇為ignore，replace和xmlcharrefreplace 這三個分別代表的意思是忽略非法字元，用？代替非法字元，用xml的字元引用

最後再對相應的字串改為utf-8就完全從原來的法語改為英語字母啦~~

Python爬蟲遇到法語變成 u00e9

用python爬蟲過程中，尤其是爬取國外時候會發現出現一些 u00e9,u00e8這種檢視原網頁發現是一些法文,如等其實都是不同編碼包含內容不同的問題一般我們用python儲存資料到檔案時候是先編碼為其他的編碼集，比如gbk,或者常用的utf 8 在這兒我們需要的是它原始資訊，所以需要資料...

Python 爬蟲中遇到的反爬蟲問題

源一般會有下面幾種限制 1 一定時間內單個ip訪問次數，乙個正常使用者訪問除非是隨意的點著玩，否則不會在一段持續時間內過快訪問乙個持續時間也不會太長，我們可以採用大量不規則 ip形成乙個執行緒池，隨機從池中選擇模擬訪問。有兩種，透明和匿名 2 一定時間內單個賬號訪問次數，如果乙個人一天2...

python遇到 u 開頭的unicode編碼

web資訊中常會遇到 u4f60 u597d 型別的字元。首先 u 開頭就基本表明是跟unicode編碼相關的，u 後的16進製制字串是相應漢字的utf 16編碼。python裡decode 和encode 為我們提供瞭解碼和編碼的方法。其中decode unicode escape 能將此種字串解...

Python爬蟲遇到法語 變成 u00e9

Python爬蟲遇到法語 變成 u00e9

Python 爬蟲中遇到的反爬蟲問題

python遇到 u 開頭的unicode編碼

相關推薦

Python爬蟲遇到法語變成 u00e9

Python爬蟲遇到法語變成 u00e9