Python字串操作集錦之字串編碼解碼函式

15、字串的編碼和解碼的函式

15.1 str.encode([encoding,[errors]])：字串編碼

將unicode編碼轉換成其他編碼的字串，如str2.encode(『gbk2312』)，表示將unicode編碼的字串str2轉換成gbk2312的編碼。

encoding可以有多種值，比如gb2312 、gbk、 gb18030、big5、base64等。

errors預設值為」strict」，意思是unicodeerror。可能的值還有』ignore』, 『replace』, 『xmlcharrefreplace』, 『backslashreplace』和所有的通過codecs.register_error註冊的值。這一部分內容涉及codecs模組。

>>> 
'abd'.encode('base64')
'ywjk\n'

15.2 str.decode([encoding,[errors]])：字串解碼

將其他編碼的字串解碼成unicode編碼的字串，如str1.decode(『gbk』)，表示將gbk編碼的字串str1解碼成unicode編碼。

>>> 
'ywjk\n'.decode('base64')
'abd'

字串在python2.x版本內部是以ascii編碼表示的，python3.x預設是unicode編碼。因此，有時候會遇到編碼轉換的問題，通常是以unicode作為中間編碼，即先將其他編碼的字串解碼（decode）成unicode，再從unicode編碼（encode）成另一種編碼。

因此在轉碼時，一定要弄明白字串str是什麼編碼，然後decode成unicode，然後再encode成其他編碼。**中字串的預設編碼與**檔案本身的編碼一致。

如果字串是這樣定義的：str1 = u』abcd』

則該字串的編碼就被指定成為unicode了，此時如果再對其解碼的話，就會出錯。因此，這種情況下，只需要直接使用encode方法進行編碼即可。

通常在編碼前需要對字串的是否是unicode編碼進行判斷：

isinstance(str1, unicode)#判斷字串是否是unicode編碼

有時候我們也需要檢視一下系統的編碼：

import sys
print sys.getdefaultencoding() #獲取系統的編碼

編碼和解碼時，可以用第二個引數控制錯誤處理的策略，預設的引數就是strict，代表遇到非法字元時丟擲異常；

如果設定為ignore，則會忽略非法字元；

如果設定為replace，則會用?取代非法字元；

如果設定為xmlcharrefreplace，則使用xml的字元引用。

Python字串操作集錦之字串編碼解碼函式

Python字串操作集錦之字串對映表

Python函式操作集錦之字串測試判斷函式

Python之字串操作

Python字串操作集錦之字串編碼解碼函式

Python字串操作集錦之字串對映表

Python函式操作集錦之字串測試 判斷函式

Python之字串操作

相關推薦

Python函式操作集錦之字串測試判斷函式