談談字符集和字元編碼

字符集（charset）和字元編碼（character encoding）是兩個含義相近的概念。在歷史上一段時間裡，二者實際上指代同乙個東西，就是為字元建立的數字編號。字符集建立了字元到數字的1-1對映。對於每個字元，都有唯一的數字與之相對應。對映的作用域是字符集能夠識別的全部字元，值域是這些字元的數字編號。字元編碼則是在字符集的基礎上更進一步，規定了在計算機中如何表示這些數字編號。比如我們可以把字元「a」對映成65，這就是乙個字符集（雖然只包含1個字元）。現在考慮我們如何在計算機中表示數字65。假設我們使用c語言，我們可以用char、short、int、long這4種資料型別記錄數字65，因此產生了這個小小字符集的4種不同的字元編碼。

char a_c = 0x41;

short a_s = 0x0041;

int a_i = 0x00000041;

long a_l = 0x0000000000000041;

一些字符集在編制的時候，就規定了數字編號的表示方式。對於這種情況，字符集和字元編碼是等同的。

最初每個計算機廠商都設計了自己的字元編碼。為了讓不同廠商的系統可以相互通訊，統一字元編碼的需求產生了。最開始統一的是表示拉丁字母的ascii碼。拉丁字母數量較少，因此ascii採用單位元組編碼。單位元組可以表示256個不同的字元，這對於象形文本是遠遠不夠的。因此產生了雙位元組字符集dbcs（double-byte character set）。dbcs用兩個位元組記錄字元的編號，最多支援65536個字元。如果只考慮常用字元，對於大部分文字，dbcs已經足夠用了。

廠商希望將軟體銷售到不同的地區，因此希望軟體能夠支援多種文字。這個就要求建立乙個支援多種文字的字符集。國際標準化組織iso和unicode聯盟分別著手進行這項工作。iso製作的字符集叫做ucs（universal character set），通過標準iso 10646進行規範。unicode聯盟編制的字符集叫做unicode。隨著工作的進行，兩個組織認識到建立統一字符集的重要性，並著手合併工作成果，這就是今天大家看到的unicode（嚴格來說是unicode 2.0及以後版本）。如今ucs和unicode可以認為是等同的。iso為ucs定義了兩種字元編碼，分別使用2位元組和4位元組記錄字元編號，因此稱為ucs-2和ucs-4。unicode聯盟為unicode定義了3種字元編碼，分別是utf-8、utf-16和utf-32。utf-16和utf-32可以看做和ucs-2、ucs-4是等同的。utf-8則採用變長編碼，編碼長度可以是1、2、3或4位元組。變長編碼的優點有2個：可以相容ascii，對於包含拉丁字元較多的文字，編碼的總長度較小。當然定長編碼也有自己的優勢：解析簡單，使用方便。

編碼長度

字元範圍

utf-8編碼

10x000000~0x00007f

0******x

20x000080~0x0007ff

110***xx 10******

30x000800~0x00ffff

1110***x 10****** 10******

40x010000~0x10ffff

11110*** 10****** 10****** 10******

對於多位元組定長編碼，需要考慮位元組序的問題。因此utf-16和utf-32又被分為utf-16le、utf-16be、utf-32le、utf-32be。為了確定位元組序，unicode引入了bom（byte order mask）。bom是編碼首部的幾個位元組，是可選的。

utf-8

0xef 0xbb 0xbf

utf-16le

0xff 0xfe

utf-16be

0xfe 0xff

utf-32le

0xff 0xfe 0x00 0x00

utf-32be

0x00 0x00 0xfe 0xff

國內常用的字符集/字元編碼有：

這是**經常出現的亂碼。unicode有乙個特殊符號0xfffd，用於替換無法識別的字元。假設乙個html頁面採用gbk編碼。web應用在讀取html時，卻以unicode進行解碼，其中有些無法解析的字元就會被0xfffd替換。當傳輸給客戶端時，如果採用了utf-8編碼，0xfffd將編碼為0xef 0xbf 0xbd。而「錕斤拷」三個子的gbk編碼是 0xef 0xbf 0xbd 0xef 0xbf 0xbd。

為了提供相容和擴充套件，字符集通常會預留一部分編號，供使用者自行約定用途。這部分編號叫做pua（private user areas）。在字符集的後續版本中，保證不會使用pua中的編號。gbk和unicode都有pua。假設在字符集版本1中，缺少了字元x。使用者在pua中為x分配了編號charset_1_pua(x)。在字符集版本2中，增加了字元x，並分配了編號charset_2(x)，就會出現乙個字元擁有兩個編碼的情況。如果乙個計算機系統使用字符集版本1，另乙個使用字符集版本2，它們在通訊的時候，就會出現無法識別字元x的情況。

為了推進電子政務建設，2023年公安部委託北大方正公司建立生僻字庫，叫做方正人口資訊字型檔（包括字型和輸入法）。為了處理當時gbk和unicode尚未支援的生僻字，方正人口資訊字型檔使用了大量的pua編碼，包括4700多個unicode pua編碼和1400多個gbk pua編碼。其中一些字元被新增到後續的unicode版本中，因此出現了一字雙碼的情況。在新系統上生成的，包含一字雙碼字元的資料，在老的系統上無法識別。這裡面最著名的，當屬「龑」字。

談談字符集和字元編碼

字符集和字符集編碼詳解

字符集和字元編碼

字符集和字元編碼

相關推薦