我們在爬蟲時,url鏈結中含有中文時,會自動被編碼為特殊符號,因此我們需要對中文進行編碼操作,同時也有可能涉及到對url編碼後的中文進行解碼操作。
from urllib.request import quote
x = '角色扮演'
print(quote('角色扮演'))
輸出結果為:
%e8%a7%92%e8%89%b2%e6%89%ae%e6%bc%94
將編碼後的中文構造成完整url,借助字串的format
方法:
url = ''.format(quote(x))
print(url)
輸出結果為
from urllib import parse
y = '%e8%a7%92%e8%89%b2%e6%89%ae%e6%bc%94'
print(parse.unquote(y))
輸出結果為:
角色扮演
python3 中文亂碼與預設編碼格式設定方法
python預設編碼格式是utf 8。在python2.7中,可以通過sys.setdefaultencoding gbk 設定預設編碼格式,而hniagcez在python3.3中sys.setdefaultencoding 這個函式已經沒有了。在python3.3中該如何設定內建的預設編碼格式啊...
python3中文長度 python3獲得漢字長度
import string def str count str 找出字串中的中英文 空格 數字 標點符號個數 count en count dg count sp count zh count pu 0 for s in str 英文 if s in string.ascii letters cou...
python3中url中文轉ascii碼的介紹
import urllib.request import urllib.parse import string def get params url 把中文字元轉成ascii碼,使用urllib.parse.urlencode,引數使用字典格式,自動轉化 params result urllib.p...