編碼方式及轉換

2022-09-09 03:06:17 字數 1243 閱讀 7074

ascii碼    用八位二進位制表示乙個英文  乙個位元組

unicode    中英文均用32位二進位制表示  四個位元組

utf-8    英  8位  乙個位元組

中   24位   三個位元組

gbk    英   8位  乙個位元組

中   16位   兩個位元組

1、各個編碼之間的二進位制不能相互識別

2、檔案的儲存,傳輸不能是unicode

#encode 編碼  將str---->bytes

英文s1 = 'changchun'

s11 = s1.encode('utf-8')

s12 = s1.encode('gbk')

中文s2 = '長春'

s21 = s2.encode('utf-8')

s22 = s2.encode('gbk')

ascii

a : 000000108位 乙個位元組

unicode a : 00000000 00000001 00000010 0000010032位 四個位元組

中:00000000 00000001 00000010 0000011032位 四個位元組

utf-8 a : 001000008位 乙個位元組

中 : 00000001 00000010 0000011024位 三個位元組

gbk a : 000001108位 乙個位元組

中 : 00000010 0000011016位 兩個位元組

1,各個編碼之間的二進位制,是不能互相識別的,會產生亂碼。

2,檔案的儲存,傳輸,不能是unicode(只能是utf-8 utf-16gbk,gb2312,asciid等)

py3:

str 在記憶體中是用unicode編碼。

bytes型別

對於英文:

str :表現形式:s = '

alex

'編碼方式: 010101010unicode

bytes :表現形式:s = b'

alex

'編碼方式: 000101010 utf-8gbk。。。。

對於中文:

str :表現形式:s = '中國'

編碼方式: 010101010unicode

bytes :表現形式:s = b'

x\e91\e91\e01\e21\e31\e32

'編碼方式: 000101010 utf-8 gbk。。。。

常見編碼及轉換

1 bcd碼 1 壓縮bcd 4位二進位制數表示乙個十進位制數,例如 0001 0010 12 0001 0011 13 2 bcd 8位二進位制數表示乙個十進位制數,高四位為0 0000 0001 0000 0010 12 0000 0001 0000 0011 13 一般地,壓縮bcd碼比較常用...

Linux的編碼及編碼轉換

如果你需要在linux中操作windows下的檔案,那麼你可能會經常遇到檔案編碼轉換的問題。windows中預設的檔案格式是gbk gb2312 而linux一般都是utf 8。下面介紹一下,在linux中如何檢視檔案的編碼及如何進行對檔案進行編碼轉換。檢視檔案編碼 在linux中檢視檔案編碼可以通...

常用編碼方式的轉換

雖說有多種編碼方式,實際上除ascii碼外,其它區位碼 國標碼基本上都是一回事,只是其編碼的方式不同 對漢字的訪問方式不同。機內碼是機器語言編碼,它包括有語言的解釋 各類字元的機器編碼等。ascii碼是常用的字元 符號,為1到255,十六進製制01到ff。區位碼是包括漢字在內的特殊字符集,共分87區...