爬蟲編碼問題

2021-08-04 18:21:03 字數 952 閱讀 5456

在獲取網頁時會遇到各種各樣的編碼問題,我們有不同的編碼方式,但是在使用beautifulsoup時,他有自動檢測編碼的功能,但是這樣遍歷一遍,知道編碼也是乙個很慢的過程。而且依然有可能出錯。因此我們可以在例項化beautifulsoup時,加上編碼規則,這樣就可避免錯誤。

首先我們先檢視爬蟲的頁面的編碼方式,使用下列**即可獲得

輸出編碼時,可以呼叫 beautifulsoup 物件或任意節點的 encode() 方法,就像python的字串呼叫 encode() 方法一樣:

soup.p

.encode("latin-1")

# 'sacr\xe9 bleu!

'soup.p

.encode("utf-8")

# 'sacr\xc3\xa9 bleu!

'

引入解決編碼問題

from bs4 import unicodedammit

>>> dammit = unicodedammit("sacr\xc3\xa9 bleu!")

>>> print(dammit.unicode_markup)

>>> dammit.original_encoding

python爬蟲筆記 編碼問題

importurllib2 importurllib importrequests frombs4 importbeautifulsoup url respones requests.get url text soup beautifulsoup respones,html.parser info ...

爬蟲編碼問題詳解 requests

平時我們使用 requests 時,通過兩種方法拿到響應的內容 import requests response requests.get a response.content type bytes b response.text type str 其中response.text是我們常用的.req...

python3爬蟲編碼問題

使用爬蟲爬取網頁經常遇到各種編碼問題,因此產生亂碼 今天折騰了一天,全部總結一遍 import requests url response requests.get url content response.text print content 結果有 顯示,但是出現亂碼 使用urllib庫 imp...