中文編碼簡介

2021-03-31 08:56:58 字數 1487 閱讀 9143

中文字庫有關的常見編碼有: 單位元組編碼、gb2312-80、gb12345-90、gbk、unicode編碼、unicode字符集、 big5編碼。

下面簡要介紹一下: 

1.  gb2312-80

全稱是gb2312-80《資訊交換用漢字編碼字符集 基本集》,2023年發布,是中文資訊處理的國家標準, 在大陸及海外使用簡體中文的地區(如新加坡等)是強制使用的唯一中文編碼。p-windows3.2和蘋果os就是 以gb2312為基本漢字編碼, windows 95/98則以gbk為基本漢字編碼、但相容支援gb2312。   

雙位元組編碼

範圍:a1a1~fefe

a1-a9:符號區,包含682個符號

b0-f7:漢字區,包含6763個漢字 

2.  gb12345-90

2023年制定了繁體字的編碼標準gb12345-90《資訊交換用漢字編碼字符集 第一輔助集》,目的在於規範必須使用繁體字的各種場合,以及古籍整理等。該標準共收錄6866個漢字(比gb2312多103個字,其它廠商的字型檔大多不包括這些字),純繁體的字大概有2200餘個。   

雙位元組編碼

範圍:a1a1~fefe

a1-a9:符號區,增加豎排符號

b0-f9:漢字區,包含6866個漢字

3.  unicode編碼

國際標準組織於2023年4月成立iso/iec jtc1/sc2/wg2工作組,針對各國文字、符號進行統一性編碼。2023年美國跨國公司成立unicode consortium,並於2023年10月與wg2達成協議,採用同一編碼字集。目前unicode是採用16位編碼體系,其字符集內容與iso10646的bmp(basic multilingual plane)相同。unicode於2023年6月通過dis(draf international standard),目前版本v2.0於1996公布,內容包含符號6811個,漢字20902個,韓文拼音11172個,造字區6400個,保留20249個,共計65534個。

4. gbk編碼

gbk編碼是中國大陸制訂的、等同於ucs的新的中文編碼擴充套件國家標準。gbk工作小組於2023年10月,同年12月完成gbk規範。該編碼標準相容gb2312,共收錄漢字21003個、符號883個,並提供1894個造字碼位,簡、繁體字融於一庫。windows95/98簡體中文版的字型檔表層編碼就採用的是gbk,通過gbk與ucs之間一一對應的碼表與底層字型檔聯絡。

英文名:chinese internal code specification

中文名:漢字內碼擴充套件規範1.0版

雙位元組編碼,gb2312-80的擴充,在碼位上和gb2312-80相容

範圍:8140~fefe(剔除xx7f)共23940個碼位

包含21003個漢字,包含了iso/iec 10646-1中的全部中日韓漢字

5. big5編碼

是目前台灣、香港地區普遍使用的一種繁體漢字的編碼標準,包括440個符號,一級漢字5401個、二級漢字7652個,共計13060個漢字。

以上文章內容是從網上蒐集而來,

中文編碼 1 常見中文編碼格式

為什麼要有中文編碼格式?最早的ascii碼只包括了字母 標點符號 特殊字元等127個字元。這些字元對於拉丁語系國家的人使用是足夠的,但是對於非拉丁語系國家 如中國 日本等 ascii碼就遠遠不夠了。因此就需要編碼來表示大量的漢字字元。常用的幾種中文編碼格式 1 unicode編碼 unicode編碼...

文字編碼簡介

字元編碼概述 下表,按照固定長編碼和可變長編碼進行分類。gb2312和gbk如果從與ascii碼相容的角度來講,也可以認為是可變長編碼。對於ascii碼以外的文字都是2位元組編碼。ucs和unicode在1991年已經統一 ascii編碼 前32個字元 0x00 0x1f 為控制字元 33到126 ...

字元編碼簡介

ascii ascii american standard code for information interchange,美國資訊交換標準 是一種單位元組編碼。計算機起源於美國,早期計算機中使用的只有英文,沒有其他的語言,而單位元組可以表示 2 8 1 即255 個字元,可以表示所有的英文本元及...