如何解決python爬蟲亂碼問題

2021-09-07 20:15:29 字數 1248 閱讀 1595

直接上**

import requests

url=""

html=requests.get(url).text

print(html)

輸出結果亂碼,可這是為什麼呢?很明顯是編碼問題造成的

import requests

import sys

//輸出我們編譯器所用的編碼

print(sys.getdefaultencoding())

url=""

html=requests.get(url)

print(html.encoding)

輸出結果如下

乖乖,進入是iso-8859-1,不是utf-8,可這個是為什麼呢,可能是由於網頁壓縮問題,我也是瞎猜的,哈哈。

那麼我們就來用谷歌瀏覽器檢視下該網頁是否被壓縮

接下來我們就進行編碼轉化

import requests

url=

""html=requests.get(url)

.text

#encode編碼,將iso-8859-1編碼成unicode

html=html.encode(

"iso-8859-1"

)#decode解碼,將unicode解碼成utf-8

html=html.decode(

"utf-8"

)print

(html)

問題解決

import requests

url=

""html=requests.get(url)

. html=html.decode(

"utf-8"

)print

(html)

如何解決IE開啟Word Excel亂碼問題

在 weblogic 應用程式下對於有時上傳的檔案,如 word excel weblogic 容器預設情況下可能是以記事本開啟從而導致亂碼現象。為解決此問題可以在你的專案 project 下的web.xml檔案中增加如下 即可解決直接開啟而出現亂碼問題.web.xml在web inf目錄下面.至此...

總結 如何解決ubuntu下pdf亂碼的問題。

安轉ubuntu有一段時間了,也遇到了一些問題。現在就ubuntu下出現pdf亂碼的問題解決辦法彙總下。第一種辦法 引用 sudo apt get install xpdf xpdf chinese simplified 反正我用這個的時候沒用 第二種辦法 引用 sudo apt get insta...

如何解決 CSV 亂碼問題

接上篇說的符號亂碼問題,還有一種情況下的亂碼解決方法。參考文獻 這裡匯出的是csv格式的檔案,出現亂碼,我們先要了解csv格式 csv 逗號分隔值 comma separated values,csv,有時也稱為字元分隔值,因為分隔字元也可以不是逗號 其檔案以純文字形式儲存 資料 數字和文字 純文字...