字元編碼簡介

2022-07-08 17:27:29 字數 1757 閱讀 2430

ascii

ascii(

american standard code for information interchange,

美國資訊交換標準**),是一種單位元組編碼。計算機起源於美國,早期計算機中使用的只有英文,沒有其他的語言,而單位元組可以表示

2**8 -1

即255

個字元,可以表示所有的英文本元及許多控制符號。而且只用了一半。

gb2312是一種雙位元組編碼,由中國國家標準總局

1980

年發布,

2023年5

月1日開始使用。適用於漢字處理,漢子通訊等系統之間的資訊交換,收入漢字

6763

個和非漢字元

682個。

gb2312規定對收錄的每個字元採用兩個位元組表示,第乙個位元組為「高位元組」,對應

94個區;第二個位元組為「低位元組」,對應

94個位。所以它的區位碼範圍是:

0101

-9494

。區號和位號分別加上

0xa0

就是gb2312

編碼。例如最後乙個碼位是

9494

,區號和位號分別轉換成十六進製制是

5e5e

,0x5e+0xa0

=0xfe

,所以該碼位的

gb2312

編碼是fefe

。部分手機以及***支援的是

gb2312

編碼格式。

gbk

gbk是一種雙位元組編碼,

1995

年制定並正式發布。

gbk向下與

gb2312

編碼相容,其編碼範圍從

8140

至fefe

(剔除xx7f

),共23940

個碼位,共收錄了

21003

個漢字。

unicode

unicode(統一碼、萬國碼、單一碼),用兩個位元組表示乙個字元,

1994

年正式公布。原有的英文編碼從單位元組變成雙位元組,只需要把高位元組全部填為

0就可以。

unicode

把所有語言都統一到一套編碼裡,它為每種語言中的每個字元設定了統一並且唯一的二進位制編碼,以滿足跨語言、跨平台進行文字轉換、處理的要求。因為

python

的誕生比

unicode

標準發布的時間還要早,所以最早的

python

只支援ascii

編碼,普通的字串

'abc'

在python

內部都是

ascii

編碼的。現在

python

支援unicode

編碼了utf-8

utf-8是一種針對

unicode

的可變長度字元編碼,又稱萬國碼,由

ken thompson

於1992

年建立。

utf-8用1

到6個位元組編碼

unicode

字元。ascii

字元在utf-8

編碼格式中占用乙個位元組,漢子則占用三個位元組。

文字編碼簡介

字元編碼概述 下表,按照固定長編碼和可變長編碼進行分類。gb2312和gbk如果從與ascii碼相容的角度來講,也可以認為是可變長編碼。對於ascii碼以外的文字都是2位元組編碼。ucs和unicode在1991年已經統一 ascii編碼 前32個字元 0x00 0x1f 為控制字元 33到126 ...

中文編碼簡介

中文字庫有關的常見編碼有 單位元組編碼 gb2312 80 gb12345 90 gbk unicode編碼 unicode字符集 big5編碼。下面簡要介紹一下 1.gb2312 80 全稱是gb2312 80 資訊交換用漢字編碼字符集 基本集 1980年發布,是中文資訊處理的國家標準,在大陸及海...

url編碼簡介

url編碼是一種瀏覽器用來打包表單輸入的格式。瀏覽器從表單中獲取所有的name和其中的值 將它們以name value引數編碼 移去那些不能傳送的字元,將資料排行等等 作為url的一部分或者分離地發給伺服器。不管哪種情況,在伺服器端的表單輸入格式樣子象這樣 thename ichabod crane...