GBK BIG5 CJK HZ的內碼體系

2021-09-30 02:29:45 字數 2598 閱讀 3428

漢字擴充套件內碼規範 — gbk 

漢字擴充套件內碼規範 — gbk 的目的是解決漢字收字不足、簡繁同平面共存、簡化**體

系間轉換等漢字資訊交換的瓶頸問題,並在保持已有應用軟體相容性的前提下,向最終 

的國際統一雙位元組字符集標準 iso10646.1 邁進。

1  擴充套件的漢字內碼規範的原則

與《資訊交換用漢字編碼字符集--基本集》即國家標準 gb2312-80 的內碼體系標準完

全相容。 

在字彙一級支援 iso 10466.1/《cjk統一漢字編碼字符集》即國家標準 gb13000.1的

全部 cjk 漢字。

非漢字符號同時涵蓋大部分常用的《big5》非漢字符號。

2  規範的名稱與簡稱

中文名稱:漢字內碼規範

英文名稱:chinese internal code specification

簡稱: gbk ( k 是「擴充套件」的漢語拼音第乙個字母)

3  規範的內容

適用範圍:

作為非 ucs (iso 10646) 體系的**頁(code page),適用於中文資訊的處理、交

換、儲存、顯現、輸入和輸出。 

字彙:

gb2312-80的全部漢字、非漢字符號。

gb13000.1中的其他cjk漢字。

以上兩項合計為 20902 個 gb 化漢字。

《簡化字總表》中尚未收入 gb 13000.1 的 52 個漢字;即,gbk 不但能包括

《現代漢語通用字表》的全部七千個漢字,還能夠包含《簡化字總表》中的全部簡體 

字及其對應的繁體字。 

《康熙字典》及《辭海》中尚未收入 gb 13000.1 的部首及重要構件共 28 個。

13 個漢字結構符。

《big5》中未被 gb2312--80 收入的、單在 iso 10646.1 中存在的圖形符號

139 個。

正式收入帶音調的拼音字母 30 個和 ɑ、ɡ(按 gb 12345-90 印刷本)。

漢字「o」(gb13001.1** 0x3007「零」)。

gb 12345-90 中編碼的豎排標點符號 19 個,但凡是 ucs 中沒有編碼的暫不收入。

從 iso 10646.1/gb 13000.1 的 cjk 相容區挑選出來的 21 個漢字,以保證若干

big5 (tcacns11643) 檔案、jis 檔案及 ibm 檔案在雙向往返轉換中不致丟失資訊。

31 個 ibm os/2 專用符號,凡是 iso 10646.1/gb 13000.1 已經收入的全部收入

或認同。 

漢字字序

gb2312-80 的漢字仍然按照原有的 i 級字,ii 級字,分別按拼音、部首/筆畫排

列。 

gb13000.1 的其他cjk漢字,按 ucs **大小順序排列。

追加的80個漢字、部首/構件,與上述兩類字彙分開,按康熙字典頁碼.字位單獨

排列。 

碼位分配(略)

總體採用 8140-fefe 的矩形區域,剔除 xx7f 一條線,共 23940 個碼位。

漢字區:21008 個碼位。gb2312-80漢字區 b0a1-f7fe,6768個碼位, 6763個漢

字;gb13000.1擴充漢字區 8140-a0fe的矩形區,剔除 xx7f, 6080 個碼位;aa40-fea0,

剔除 xx7f, 8160 個碼位,其中, 21 個 cjk 相容漢字編碼在 fd9c-fe4f; 80 個增補

漢字/部首/構件在 fe50-fea0。

圖形符號區:1038 個碼位。gb2312-80非漢字區 a1a1-a9fe,846 個碼位,除了原

有的標準字元外,其中還有: 10 個小寫羅馬數字《補充在 a2a1-a2aa, 30 個帶音調拼

音字母及 ɑ、ɡ安排在 a8a1-a8c0, 19 個豎排符號安排在 a6e0-a6f5 之間。gb13000.1

擴充非漢字區a840-a9a0,剔除 xx7f,192 個碼位,big5 非漢字字元、結構符和「o」

排列在此區域。 

使用者自定義區: 1894個碼位,aaa1-affe的矩形區, 564 個碼位;f8a1-fefe的矩

形區, 658 個碼位,a140-a7a0 的矩形區, 672 個碼位 (剔除 xx7f)。

gbk 與 gb 13000.1 的對應關係

漢字區和圖形符號區的所有字元,都與 gb 13000.1 已經編碼的字元一一對應。

52 個追加漢字、28 個部首/構件以及 13 個結構符均暫時對應於 gb 13000.1 的

專用區( private use area, e000-f8fe),如果今後這些字元正式收入了 iso 10646/ gb

13000,本規格將作

帶音調的拼音字母,與 gb 13000.1 中 a_zone 的 latin 編碼字元相對應;與 gb

13000.1 不能對應的兩個字母,有待向 sc2/wg2 申請碼位。

gbk 的字形

gbk 字形要與 iso 10646.1/gb 13000.1 保持一致。

在 cjk 漢字認同規則的總框架內,選用「無重碼正形」後的(gb 化)的漢字字形?

mysql查詢5分鐘內的資料

查詢sql語句 select from tb log where createtime date sub now interval 5 minute 函式 描述now 返回當前的日期和時間 curdate 返回當前的日期 curtime 返回當前的時間 date 提取日期或日期 時間表示式的日期部分...

Qt5 讀取txt文字內的中文亂碼

在預設情況下,qt 以 unicode 格式讀取或者寫入文字字元,字元本身沒有問題。亂碼是因為qt不知道將 unicode 字元以何種方式顯示出來。使用qtextcodec來轉換編碼 qfile file c test 01.txt if file.open qiodevice readonly q...

原生App內H5需要注意的問題

1.處理時間字串型別的時候,需要對安卓與ios做乙個判斷處理這是因為 date.parse new date 2018 9 11 0 0 0 android date.parse new date 2018 9 11 0 0 0 ios2.由於安卓的webview預設不開啟dom localstor...