字符集編碼

2022-04-04 13:16:50 字數 1487 閱讀 4937

字符集

字元- 只有名字和顯示的樣式。例如:comma ,

字元碼位(交換碼)-每個字元定義乙個唯一的數字表示(碼位)。例如:0x2c ,

字元編碼(內碼)- 針對一套字元碼位的對映演算法,以在計算機內部用位元組序列表示每個碼位。

ascii字符集

主要針對英語使用

每個字元的定義,字元碼位和字元編碼完全相同,最簡單的對映關係

gb2312字符集

每個漢字或符號用兩個位元組來表示。分割槽(十進位制)處理:

01-09區為特殊符號。

10-15區未有編碼

16-55區為一級漢字,按拼音排序。

56-87區為二級漢字,按部首/筆畫排序。

88-94區則未有編碼

高位位元組使用0xa1-0xf7(把01-87區的區號加上0xa0),低位位元組使用0xa1-0xfe(把01-94加上0xa0)。

例如:「啊」字是gb2312之中的第乙個漢字,它的區位碼是1601,會以0xb0a1儲存。

(因為16+0xa0=0xb0  01+0xa0=0xa1)

iso8895字符集

主要針對拉丁字母的語言

gbk

漢字內碼擴充套件規範。

最初是ms對gb2312的擴充套件,得到國家認可但不是國家標準。

包括了原gb2312編碼,編碼範圍是:高位元組0x81-0xfe,低位元組0x40-0xfe同時不包括

0x7f

對比gbk:       0x81-0xfe, 0x40-0xfe,  -0x7f

gb2312:    0xa1-0xf7, 0xa1-0xfe

gb18030

國家標準

雙位元組部分完全採用gbk的內碼系統,然後做了四位元組擴充套件,四個位元組的編碼空間依次

是:0x81到0xfe,0x30到0x39,0x81到0xfe,0x30到0x39。總共1,587,600個碼位

gb 18030-2000版本收錄了全部27,484個cjk統一漢字

在編碼體系上,gb18030統一了內碼和交換碼的概念

取代gbk

gb13000

與unicode相同

iso10646和unicode

使各種語言的字元在編碼上有與ascii碼相同地位,可以同時處理各國語言

iso10646是國際標準,unicode是行業標準

兩者完全相容

通用多八位編碼字符集(ucs):四個八位位組的四維編碼空間,分別表示組/面/行/位

即ucs-4形式

ucs-2就是00組中的00平面,即iso 10646.1的基本多文種平面(bmp)。

為了與ascii碼相容,推薦格式utf-8:採用1-6個八位位組表示ucs中的乙個字元

unicode由the unicode consortium制定,相容iso10646

unicode原始為16位編碼,現在擴充為0--10ffff

字符集 編碼

字符集概念 1 字符集 可以表示的字元和字元對應計算機位元組碼的對映 2 字元編碼方式 計算機中用來表示和傳輸如前所述字符集中對映的位元組碼的編碼方式。對於ascii和gb2312等字符集,他們在傳輸和計算機表示時的位元組碼不用編碼,直接用字元對應的位元組碼表示。但比如unicode 字符集,就有多...

字符集編碼

喬哥 小萌,聽說你去面試了,怎麼樣啊?小萌 哎 喬哥,你給我講講什麼是字符集和編碼唄,ascii,utf 8,utf 16,utf 32又是啥?喬哥 好的,在搞懂字符集先來講講什麼是編碼吧 在計算機底層,比如說你的名字 小萌 在計算機中並不是文字的形式,而是一串二進位制數字,如 0110011001...

字符集編碼

references 字元編碼中ascii unicode和utf 8的區別 ascii碼 unicode編碼 utf 8編碼的區別 條目ascii unicode utf 8 占用byte數 12,不常用的字元占用4個 變長的編碼方式,將乙個unicode字元編碼成1 6個字元。常用的英文本母被編...