字元 字符集 字元編碼

2021-08-18 10:51:05 字數 2015 閱讀 1006

字元是指計算機

中使用的字母、數字

、字和符號

,包括:1、2、3、a、b、c、~!·#¥%……—*()——+等等。

在 ascii 編碼中,乙個英文本母字元儲存需要1個位元組。在 gb 2312 編碼或 gbk 編碼中,乙個漢字

字元儲存需要2個位元組

。在utf-8編碼中,乙個英文本母字元儲存需要1個位元組,乙個漢字字元儲存需要3到4個位元組。

在utf-16編碼中,乙個英文本母字元或乙個漢字字元儲存都需要2個位元組

(unicode擴充套件區的一些漢字儲存需要4個位元組)。在utf-32編碼中,世界上任何字元的儲存

都需要4個位元組。

字元是可使用多種不同字元方案或**頁

來表示的抽象實體

。例如,unicode utf

-16編碼將字元表示為 16 位整數序列,而 unicode utf-8

編碼則將相同的字元表示為 8 位位元組

序列。微軟的公共語言執行庫

使用 unicode utf-16(unicode 轉換格式,16 位編碼形式)表示字元

。字元(character)是各種文字和符號的總稱,包括各國家文字、標點符號、圖形符號、數字等。

字符集(character set)是多個字元的集合,

字符集種類較多,每個字符集包含的字元個數不同,常見字符集名稱:ascii字符集、gb2312字符集、big5字符集、 gb18030字符集、unicode字符集等。計算機要準確的處理各種字符集文字,需要進行字元編碼

,以便計算機能夠識別和儲存各種文字。中文文字數目大,而且還分為簡體中文和正體中文

兩種不同書寫規則的文字,而計算機最初是按英語單位元組

字元設計的,因此,對中文字元進行編碼,是中文資訊交流的技術基礎

常見的字符集

1.unicode

:也叫統一字符集,它包含了幾乎世界上所有的已經發現且需要使用的字元(如中文、日文、英文、德文等)。

2.ascii

:早期的計算機系統只能處理英文,所以ascii也就成為了計算機的預設字符集,包含了英文所需要的所有字元。

3.gb2312

:中文字符集,包含ascii字符集。ascii部分用單位元組表示,剩餘部分用雙位元組表示。

4.gbk

:gb2312的擴充套件,但完整包含了gb2312的所有內容。

5.gb18030

:gbk字符集的超集,常叫大漢字字符集,也叫cjk字符集,

包含了中、日、韓三國語言中的所有字元。

字符集只是乙個規則集合的名字,對應到真實生活中,字符集就是對某種語言的稱呼。例如:英語,漢語,日語。對於乙個字符集來說要正確編碼轉碼乙個字元需要三個關鍵元素:字型檔表(character repertoire)、編碼字符集(coded character set)、字元編碼(character encoding form)。

1.字型檔表

字型檔表是乙個相當於所有可讀或者可顯示字元的資料庫,字型檔表決定了整個字符集能夠展現表示的所有字元的範圍。

2.編碼字符集

編碼字符集,即用乙個編碼值code point來表示乙個字元在字型檔中的位置(即該字元在子庫表中的位置),這個值稱為字元對應字符集(如:unicode、ascii)的序號。

3.字元編碼

字元編碼,將編碼字符集和實際儲存數值之間的轉換關係。一般來說都會直接將code point的值作為編碼後的值直接儲存(根據字元編碼方案轉換為乙個二進位制數值儲存在計算機中的,所以字元編碼是定義在字符集上的對映規則)。

注意:編碼字符集unicode,有utf-8、utf-16、utf-32等多種字元編碼

編碼字符集ascii,本身就是編碼字符集,又是字元編碼

編碼字符集gb2312,只有euc-cn一種字元編碼

字符集 編碼

字符集概念 1 字符集 可以表示的字元和字元對應計算機位元組碼的對映 2 字元編碼方式 計算機中用來表示和傳輸如前所述字符集中對映的位元組碼的編碼方式。對於ascii和gb2312等字符集,他們在傳輸和計算機表示時的位元組碼不用編碼,直接用字元對應的位元組碼表示。但比如unicode 字符集,就有多...

字符集編碼

喬哥 小萌,聽說你去面試了,怎麼樣啊?小萌 哎 喬哥,你給我講講什麼是字符集和編碼唄,ascii,utf 8,utf 16,utf 32又是啥?喬哥 好的,在搞懂字符集先來講講什麼是編碼吧 在計算機底層,比如說你的名字 小萌 在計算機中並不是文字的形式,而是一串二進位制數字,如 0110011001...

字符集編碼

references 字元編碼中ascii unicode和utf 8的區別 ascii碼 unicode編碼 utf 8編碼的區別 條目ascii unicode utf 8 占用byte數 12,不常用的字元占用4個 變長的編碼方式,將乙個unicode字元編碼成1 6個字元。常用的英文本母被編...