中文編碼 1 常見中文編碼格式

2021-08-21 13:33:24 字數 1171 閱讀 1416

為什麼要有中文編碼格式?

最早的ascii碼只包括了字母、標點符號、特殊字元等127個字元。這些字元對於拉丁語系國家的人使用是足夠的,但是對於非拉丁語系國家(如中國、日本等),ascii碼就遠遠不夠了。因此就需要編碼來表示大量的漢字字元。

常用的幾種中文編碼格式:

1、unicode編碼

unicode編碼通常由兩個位元組組成,稱作usc-2,個別偏僻字由四個位元組組成,稱作usc-4。前127個還表示原來ascii碼裡的字元,只不過由乙個位元組變成了兩個位元組。

優點:可以囊括多國語言,囊括了常用漢字

不足:表示乙個英文本元由乙個位元組變成了兩個,浪費儲存空間和傳輸速度。生僻字表示不足

2、utf-8編碼

unicode編碼的一種,unicode用一些基本的保留字元制定了三套編碼方式,它們分別為utf-8,utf-16,utf-32.在utf-8中,字元是以8位序列來編碼的,用乙個或幾個位元組來表示乙個字元。這種方式的最大好處是utf-8保留了ascii字元的編碼作為它的一部分。utf-8俗稱「萬國碼」,可以同屏顯示多語種,乙個漢字通常占用3位元組(生僻字佔6個)。為了做到國際化,網頁盡可能採用utf-8編碼。

3、gb2312編碼

gb2312簡體中文編碼,乙個漢字占用2個位元組,在大陸是主要的編碼方式。當文章/網頁中包含正體中文、日文、韓文等時,這些內容可能無法被正確編碼。

作用:國家簡體中文字符集,相容ascii

位數:使用2個位元組表示,能表示7445個符號,包括6763個漢字,幾乎覆蓋所有高頻率漢字。

範圍:高位元組從a1-a7,低位元組從a1到fe。將高位元組和低位元組分別加上0xa0即可得到編碼。

4、big5編碼

稱為正體中文編碼,主要在台灣地區使用。

5、gbk編碼

作用:它是gb2312的擴充套件,加入對繁體字的支援,相容gb2312.

位數:使用2個位元組表示,可表示21886個字元。

範圍:高位元組從81到fe,低位元組從40到fe.

6、gb18030編碼

作用:它解決了中文、日文、朝鮮語等的編碼,相容gbk。

位數:它採用變位元組表示(1ascii, 2,4位元組)。可表示27484個文字。

範圍:1位元組從00到7f;2位元組高位元組從81到fe,低位元組從40到7e和80到fe;4位元組第一三位元組從81到fe,第二四位元組從30到39.

參考:[1] 

[2] 

常見編碼格式(中文編碼)

中文編碼主要有以下四種 gb2312簡體中文編碼,乙個漢字占用2個位元組,在大陸是主要的編碼方式。當文章 網頁中包含正體中文 日文 韓文等時,這些內容可能無法被正確編碼。big5正體中文編碼,主要在台灣地區使用。gbk支援簡體及正體中文,但對他國非拉丁字母語言還是有問題。utf 8 unicode編...

mysq中文編碼格式

1 修改資料庫編碼格式 mysql set names utf8 改變資料庫伺服器和客戶端的字符集 mysql alter database mydb character set utf8 更改庫字符集 2 連線字串中指定編碼 useunicode true characterencoding ut...

中文編碼簡介

中文字庫有關的常見編碼有 單位元組編碼 gb2312 80 gb12345 90 gbk unicode編碼 unicode字符集 big5編碼。下面簡要介紹一下 1.gb2312 80 全稱是gb2312 80 資訊交換用漢字編碼字符集 基本集 1980年發布,是中文資訊處理的國家標準,在大陸及海...