關於GB18030漢字編碼標準集

2021-04-13 05:25:04 字數 3718 閱讀 6878

關於gb18030漢字編碼標準集

國家標準gb18030-2000《資訊交換用漢字編碼字符集基本集的擴充》是我國繼gb2312-1980和gb13000-1993之後最重要的漢字編碼標準,是未來我國計算機系統必須遵循的基礎性標準之一。為保證該標準順利貫徹執行,國家質監總局將在9月1日起首先對影響廣泛的計算機作業系統進行執法檢查,凡不符合該標準的產品,視為不合格產品。為此,全國資訊科技標準化技術委員會將根據有關標準和規範,組織對市場上主要的作業系統產品進行標準符合性檢測。

檢測要求及標準的制定

1.須經檢測的產品範圍

gb18030是資訊產品必須遵循的基礎性標準,考慮到一些客觀實際,採取從基礎抓起,分步實施的策略。本次對必須經檢測產品的範圍規定如下:

●個人計算機作業系統產品須經標準符合性測試,其他產品暫不做要求;

●凡是在gb 18030發布日期(2023年3月17日)前正式發布或出廠的產品,視為歷史性產品,不在gb 18030的監督檢查範圍之內;

●在2023年3月17日後對歷史性產品的更新版本或公升級版本作為新產品對待;

●凡是在gb 18030實施過渡期間(即2023年3月17日至2023年8月31日)正式發布或出廠的產品,應符合gb 18030相關要求。不符合標準要求的產品應採用補救措施,以達到符合標準的相關要求。補救措施應得到全國資訊科技標準化技術委員會的認可;

●凡是在gb 18030過渡期(即2023年8月31日)後正式發布或出廠的產品,必須符合gb 18030相關要求。

2.關於標準符合性測試

為了配合gb 18030的實施,資訊處理產品標準符合性檢測中心(設在資訊產業部電子工業標準化研究所)開展了gb 18030各項測試的準備工作,並且對國內外多個產品進行了測試。

為了指導標準實現者沿著正確的方向盡快在產品上實現gb 18030,資訊處理產品標準符合性檢測中心於2023年11月提出了《gb 18030標準符合性檢測規範》。《檢測規範》對檢測使用的軟體和硬體環境、測試要求、測試步驟、適用範圍等做了明確而詳細的規定。

檢測一般要求如下:

●字彙完整性:產品的字彙範圍應是國家標準gb 18030中所有給出字形的字元;

需要說明的是:檢測範圍不包括嵌入系統,如pda、手機;單位元組貨幣符號的編碼不在檢測範圍之內;作業系統為近期檢查重點。

3.對少數民族文字的支援

●產品應具備支援gb 18030所規定我國少數民族文字編碼空間的能力;

●銷往我國少數民族地區的產品,鼓勵安裝當地少數民族字型和輸入方法。

4.按國際慣例制定標準

gb 18030收錄了27484個漢字,總編碼空間超過150萬個碼位,為解決人名、地名用字問題提供了方案,為漢字研究、古籍整理等領域提供了統一的資訊平台基礎。

目前,我國大部分計算機系統仍然採用gb 2312編碼。gb 18030與gb 2312一脈相承,較好地解決了舊系統向新系統的轉換問題,並且改造成本較小。從我國資訊科技和資訊產業發展的角度出發,考慮到解決我國使用者的需要及解決現有系統的相容性和對多種作業系統的支援,採用gb 18030是我國目前較好的選擇,而gb 13000.1更適用於未來國際間的資訊交換。考慮到gb 18030和gb 13000的相容問題,標準起草組編制了gb 18030與gb 13000.1的**對映表,使得兩個編碼體系可以自由轉換。同時,還開發了gb 18030基本點陣字型庫。

世界許多國家和地區從方便本國和民族應用的角度出發,制定了相應的編碼標準和內碼體系,如日本的jis x 0208和jis x 0212,南韓的ks c 5601和ks c 5657等,這是國際上採用的通行慣例。制定gb 18030同樣符合國際慣例,它全面相容gb 2312,在字彙上相容gb 13000.1,可以充分利用已有資源,保證不同系統間的相容性,最大限度地共享資源,為我國軟體產業留有巨大的發展空間。可以相信,gb 18030的實施將有利於國產軟體的發展並形成規模,使我國的中文資訊科技再上乙個台階。

從沿革看新標準

2023年我國頒布了第乙個漢字編碼字符集標準,即gb 2312-80《資訊交換用漢字編碼字符集基本集》。該標準共收了6763個漢字及常用符號,奠定了中文資訊處理的基礎。

隨著國際間的交流與合作的擴大,資訊處理應用對字符集提出了多文種、大字量、多用途的要求。2023年國際標準化組織發布了iso/iec 10646-1《資訊科技通用多八位編碼字符集第一部分體系結構與基本多文種平面》。我國等同採用此標準制定了gb 13000.1-1993。該標準採用了全新的多文種編碼體系,收錄了中、日、韓20902個漢字,是編碼體系未來發展方向。由於其新的編碼體系與現有多數作業系統和外部裝置不相容,所以它的實現仍需要有乙個過程,目前還不能完全解決我國當前應用的迫切需要。

考慮到gb 13000的完全實現有待時日,以及gb 2312編碼體系的延續性和現有資源和系統的有效利用與過渡,我們選擇了在gb 2312(gb 2311)的基礎上進行擴充,並且在字彙上與gb 13000.1相容的方案,研製乙個新的標準——漢字編碼基本集的擴充,進而完善gb 2312,以滿足我國郵政、戶政、金融、地理資訊系統等應用的迫切需要。

此專案業已列入一九九八年國家標準制定計畫。2023年10月,由資訊產業部電子四所、北京大學計算機技術研究所、北大方正集團、新天地公司、四通新世紀公司、中科院軟體所、長城軟體公司、中軟總公司、金山軟體公司和聯想公司的技術人員組成標準起草組。在標準研製過程中,全國資訊科技標準化技術委員會多次召集標準起草組和知名公司對標準草案進行充分地研究論證,並且特邀了微軟公司、惠普公司、sun公司和ibm公司等參加,廣泛徵求意見。標準起草組經過反覆斟酌和驗證,提出了標準制定原則——與gb 2312資訊處理交換碼所對應的事實上的內碼標準相容,在字彙上支援gb 13000.1的全部中、日、韓(cjk)統一漢字字元和全部cjk擴充a的字元,並且確定了編碼體系和27484個漢字,形成相容性、擴充套件性、前瞻性兼備的方案。

資訊產業部和原國家質量技術監督局於2023年3月17日聯合發布了該標準,即gb 18030-2000《資訊科技資訊交換用漢字編碼字符集基本集的擴充》。該標準作為國家強制性標準自發布之日起實施,過渡期到2023年8月31日止。

期間,全國信標委曾制定和發布《漢字擴充套件規範gbk 1.0》,並在ms windows 9x/me/nt/2000、ibm os/2的系統中廣泛應用。gb18030是國家標準,在技術上是gbk的超集,並與其相容,因此,gbk將結束其歷史使命。

標準的技術要點

1.總體結構

標準採用單位元組、雙位元組和四位元組三種方式對字元編碼。單位元組部分採用gb/t 11383的編碼結構與規則,使用0×00至0×7f碼位(對應於ascii碼的相應碼位)。雙位元組部分,首位元組碼位從0×81至0×fe,尾位元組碼位分別是0×40至0×7e和0×80至0×fe。四位元組部分採用gb/t 11383未採用的0×30到0×39作為對雙位元組編碼擴充的字尾,這樣擴充的四位元組編碼,其範圍為0×81308130到0×fe39fe39。其中第

一、三個位元組編碼碼位均為0×81至0×fe,第

二、四個位元組編碼碼位均為0×30至0×39。碼位總體結構見下圖。

碼位總體結構圖

2.收錄的字元

雙位元組部分收錄內容主要包括gb13000.1全部cjk漢字20902個、有關標點符號、表意文字描述符13個、增補的漢字和部首/構件80個、雙位元組編碼的歐元符號等。

四位元組部分收錄了上述雙位元組字元之外的,包括cjk統一漢字擴充a在內的gb 13000.1中的全部字元。

gb18030編碼空間約為160萬碼位,目前已編碼的字元約2.6萬。隨著我國漢字整理和編碼研究工作的不斷深入,以及國際標準iso/iec 10646的不斷發展,gb18030所收錄的字元將在新版本中增加。 

漢字編碼 (GB2312 GBK GB18030)

gb2312 收錄簡化漢字及符號 字母 日文假名等共7445個圖形字元,其中漢字佔6763個 每個符號都用兩個位元組表示,每個位元組均採用七位編碼表示,習慣上 第乙個位元組是高位元組,第二個位元組是低位元組 gb2312的編碼範圍為2121h 777eh,與ascii有重疊,通行方法是將gb碼兩個位...

Unicode 轉化 GB18030 編碼 方法

頁詳細知識 int fgetline file fp,char ch,int size 1024 ch i 1 0 return i 1 int unicode fgetline file fp,wchar t wch,int size 1024 wch i 1 0 return i 1 int r...

gb18030編碼格式了解和應用

編碼格式經常用的有utf 8 gbk,之前用eclipse開發的時候預設格式就是gbk,現在換成as後預設格式變成了標準的utf 8。最近做銀行業務發現其報文用16進製制字串轉成byte陣列後,再分別用utf 8和gbk轉碼都會有亂碼的情況出現。使用utf 8轉碼時由於全部是亂碼因此判定utf 8編...