爬蟲編碼問題

在獲取網頁時會遇到各種各樣的編碼問題，我們有不同的編碼方式，但是在使用beautifulsoup時，他有自動檢測編碼的功能，但是這樣遍歷一遍，知道編碼也是乙個很慢的過程。而且依然有可能出錯。因此我們可以在例項化beautifulsoup時，加上編碼規則，這樣就可避免錯誤。

首先我們先檢視爬蟲的頁面的編碼方式，使用下列**即可獲得

輸出編碼時，可以呼叫 beautifulsoup 物件或任意節點的 encode() 方法,就像python的字串呼叫 encode() 方法一樣:

soup.p
.encode("latin-1")
# 'sacr\xe9 bleu!
'soup.p
.encode("utf-8")
# 'sacr\xc3\xa9 bleu!
'

引入解決編碼問題

from bs4 import unicodedammit
>>> dammit = unicodedammit("sacr\xc3\xa9 bleu!")
>>> print(dammit.unicode_markup)
>>> dammit.original_encoding

python爬蟲筆記編碼問題

importurllib2 importurllib importrequests frombs4 importbeautifulsoup url respones requests.get url text soup beautifulsoup respones,html.parser info ...

爬蟲編碼問題詳解 requests

平時我們使用 requests 時,通過兩種方法拿到響應的內容 import requests response requests.get a response.content type bytes b response.text type str 其中response.text是我們常用的.req...

python3爬蟲編碼問題

使用爬蟲爬取網頁經常遇到各種編碼問題，因此產生亂碼今天折騰了一天，全部總結一遍 import requests url response requests.get url content response.text print content 結果有顯示，但是出現亂碼使用urllib庫 imp...

爬蟲編碼問題

python爬蟲筆記 編碼問題

爬蟲編碼問題詳解 requests

python3爬蟲編碼問題

相關推薦

python爬蟲筆記編碼問題