關於python爬蟲中報錯以及爬下來的資料中文亂碼

2021-10-08 12:58:05 字數 387 閱讀 7366

@爬蟲報錯以及爬下來的html中文亂碼

最近在學習python爬蟲時,用requests.get獲取的資料進行decode()時發現程式會報錯,因為python預設以utf-8進行decode,報錯提示utf-8無法decode,因此用decode(「utf-8」)同樣會報錯。

在網上查詢了一下說指定用gbk進行decode就可以了,因此**換成了decode(「gbk」),結果是成功爬資料了,但是開啟爬下來的html發現裡面的內容英文沒有問題,但是中文成了一大堆莫名其妙的東西。

最終去chrome裡檢查了一下elements,發現charset=utf-8,就試了下**寫成

content.decode(「utf-8」),結果爬下來的資料就正常了,中文也沒能正確顯示了,就是這麼的莫名其妙???

python 爬蟲 報錯 求救

在找到某度文庫文件的js檔案鏈結後想用json.loads 進行解析 以上為鏈結的js 檔案 import json import re deffetch url url headers session requests.session return session.get url,headers ...

Python 關於ssl的報錯

import urllib.requset 執行裡面urlopen報錯 這可是我第乙個小爬蟲程式,你就報錯?前面報了一大堆錯記不住了。只有下面這句 urllib.error.urlerror ok,接下來就是解決了。查詢得知 python內建的urllib模組不支援https協議,編譯安裝pytho...

Python爬蟲爬取網頁轉碼報錯

在使用python編寫爬蟲爬取 頁面資料時,遇到編碼錯誤,具體問題如下。爬蟲 request urllib2.request url,headers headers response urllib2.urlopen request return response.read decode gbk 執行...