python 網頁爬蟲亂碼以及轉碼問題

2021-08-01 22:16:43 字數 752 閱讀 8161

前言:

python 3最重要的新特性大概要算是對文字和二進位制資料作了更為清晰的區分。

文字總是unicode,由str型別表示,二進位制資料則由bytes型別表示。

python 3不會以任意隱式的方式混用str和bytes,正是這使得兩者的區分特別清晰。

你不能拼接字串和位元組包,也無法在位元組包裡搜尋字串(反之亦然),

也不能將字串傳入引數為位元組包的函式(反之亦然).

基本概念:

python檔案編碼宣告:# -*- coding: utf-8 -*-

python內部文字所有編碼是unicode

二進位制資料則由bytes型別

中文編碼型別名是gbk

正常輸出型別名是utf-8

方法如下:

#判斷輸出內容contents是否是位元組格式

if isinstance(contents,bytes):

#轉成字串格式

print ('格式不正確需轉換')

contents=contents.decode('utf-8')

else:

print('輸出格式正確,可以直接輸出')

##輸出的是位元組格式,需要將位元組格式解碼轉成』utf-8『

print (contents)

python3中內建型別bytes和str用法及byte和string之間各種編碼轉換

各種編碼介紹

各種編碼轉換

Python網頁爬蟲之中文亂碼

python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...

Python網頁爬蟲之中文亂碼

python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...

html 亂碼 爬蟲 網頁亂碼

很多同學會遇到python爬蟲得到的html亂碼的問題。其實這個問題搞清楚邏輯,就能夠解決。一般爬蟲 import點開html中的鏈結,看到亂碼了。圖1 亂碼 2.問題處理 首先,在google中輸入電影 無名之輩 的鏈結 然後ctrl u,檢視源 頁。圖2 點開google瀏覽器的源 頁 在源 第...