關於使用Python3進行網路爬蟲的字元問題

2021-09-30 13:00:18 字數 628 閱讀 3512

使用python3進行網路爬蟲的時候,對於某一些網頁,使用utf-8編碼是沒有問題的。比如:

importurllib.request
url = ""
data = urllib.request.urlopen(url).read()reqstr = data.decode('utf-8')

(相容的八位iso/iec 8859-1加上了從iso/iec 6429定義的從128到159的32個**,位於0x80-0x9f。)

url = ""
就會得到如下的錯誤:

unicodedecodeerror: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

這裡的 0x8b 就是控制符:pld,partial line forward(部分行前移)

為了解決這個問題,大家可以使用相容控制符的iso-8859-1編碼(即latin-1)解決這個問題。

reqstr = data.decode('latin-1')
最後應當注意的是,我們也應該在程式開頭申明

# coding:latin-1

python3使用 python3使用模組

python內建了很多非常有用的模組,只要安裝完畢,這些模組就可以立刻使用。我們以內建的sys模組為例,編寫乙個hello的模組 usr bin env python3 coding utf 8 a test module author michael liao import sys def tes...

python3進行excel操作

只要有需求,就會找出解決問題的方法 pip install xlrd 讀取 pip install xlwt 寫入 首先先初始化 import xlwt excel xlwt.workbook encoding utf 8 建立excel sheet excel.add sheet member 建...

python3程式設計教學 Python3 網路程式設計

python3 網路程式設計 python 提供了兩個級別訪問的網路服務。低階別的網路服務支援基本的 socket,它提供了標準的 bsd sockets api,可以訪問底層作業系統socket介面的全部方法。高階別的網路服務模組 socketserver,它提供了伺服器中心類,可以簡化網路伺服器...