字元編碼集

2022-05-15 05:03:41 字數 1444 閱讀 9725

•ascii(american standard code for information interchange

,美國資訊互換標準**

),是基於常用的英文本元的一套電腦編碼系統。我們知道英文中經常使用的字元、數字符號被計算機處理時都是以二進位製碼的形式出現的。這種二進位製碼的集合就是所謂的

ascii

碼。每乙個

ascii

碼與乙個8位(

bit)二進位制數對應。其最高位是

0,相應的十進位制數是

0-127

。如,數字「

0」的編碼用十進位制數表示就是

48。另有

128個擴充套件的

ascii

碼,最高位都是

1,由一些製表符和其它符號組成。

ascii

是現今最通用的單位元組編碼系統。

•gb2312

:gb2312

碼是中華人民共和國國家漢字資訊交換用編碼,全稱《資訊交換用漢字編碼字符集-基本集》。主要用於給每乙個中文字元指定相應的數字,也就是進行編碼。乙個中文字元用兩個位元組的數字來表示,為了和

ascii

碼有所區別,將中文字元每乙個位元組的最高位置都用

1來表示。

•gbk

gbk(gbk的k

是「擴充套件」的漢語拼音第乙個字母

)。在新的編碼系統裡,除了完全相容

gb2312 

外,還對正體中文、一些不常用的漢字和許多符號進行了編碼。

•iso-8859-1

:是西方國家所使用的字元編碼集,是一種單位元組的字符集 ,而英文實際上只用了其中數字小於

128的部分。

•unicode

:這是一種通用的字符集,對所有語言的文字進行了統一編碼,對每乙個字元都用

2個位元組來表示,對於英文本元採取前面加「

0」位元組的策略實現等長相容。如 「

a」 的

ascii

碼為0x61

,unicode

就為0x00

,0x61。(

在internet

上傳輸效率較低

)•utf-8

:eight-bit ucs transformation format

,(ucs

,universal character set

,通用字符集,

ucs 

是所有其他字符集標準的乙個超集

)。乙個7位的

ascii

碼值,對應的

utf碼是乙個位元組。如果字元是

0x0000

,或在0x0080

與0x007f

之間,對應的

utf碼是兩個位元組,如果字元在

0x0800

與0xffff

之間,對應的

utf碼是三個位元組

(漢字為

3個位元組)。

字符集 編碼

字符集概念 1 字符集 可以表示的字元和字元對應計算機位元組碼的對映 2 字元編碼方式 計算機中用來表示和傳輸如前所述字符集中對映的位元組碼的編碼方式。對於ascii和gb2312等字符集,他們在傳輸和計算機表示時的位元組碼不用編碼,直接用字元對應的位元組碼表示。但比如unicode 字符集,就有多...

字符集編碼

喬哥 小萌,聽說你去面試了,怎麼樣啊?小萌 哎 喬哥,你給我講講什麼是字符集和編碼唄,ascii,utf 8,utf 16,utf 32又是啥?喬哥 好的,在搞懂字符集先來講講什麼是編碼吧 在計算機底層,比如說你的名字 小萌 在計算機中並不是文字的形式,而是一串二進位制數字,如 0110011001...

字符集編碼

references 字元編碼中ascii unicode和utf 8的區別 ascii碼 unicode編碼 utf 8編碼的區別 條目ascii unicode utf 8 占用byte數 12,不常用的字元占用4個 變長的編碼方式,將乙個unicode字元編碼成1 6個字元。常用的英文本母被編...