Python 網頁鏈結中文亂碼的解決

2021-08-28 10:02:29 字數 308 閱讀 4722

在實現python網路爬蟲的過程中,有時候你會發現有些鏈結中的中文字元會變成「亂碼」。當然所有的亂碼都是缺少乙個合適解碼編碼方式。如果我們需要提取網頁鏈結中的中文字元這麼辦?

在python中我們可以從urllib.parse庫中匯入unquote模組。

實現如下:

from urllib.parse import unquote

url = ""

new_url = unquote(url, 'utf-8')

print(new_url)

效果如圖:

網頁中文亂碼

如果網頁顯式申明了支援中文的編碼 如 原因1網頁內容本身的編碼與utf 8不相容。是你之前用某工具編輯過網頁內容,儲存為另乙個編碼格式。解決方案 用eclipse webstrom ue等,新建乙個html文件,將 copy過去,儲存為utf 8。原因2 後台返回的資料與utf 8不相容 解決方案 ...

Python網頁爬蟲之中文亂碼

python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...

Python網頁爬蟲之中文亂碼

python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...