文字編碼簡介

2021-05-24 14:17:58 字數 1297 閱讀 8201

字元編碼概述:下表,按照固定長編碼和可變長編碼進行分類。gb2312和gbk如果從與ascii碼相容的角度來講,也可以認為是可變長編碼。對於ascii碼以外的文字都是2位元組編碼。ucs和unicode在2023年已經統一

ascii編碼:前32個字元(0x00 ~ 0x1f)為控制字元;33到126(0x20 ~ 0x7e)為英文本元;第127個(0x7f)字元為控制字元

0x00 ~ 0x1f    

控制字元

0x20 ~ 0x7e

英文本元

0x7f

控制字元(del)

ansi的擴充套件字符集iso8859-1編碼:

0x00 ~ 0x1f

未定義           

0x20 ~ 0x7e

英文本元

0x7f, 0x80 ~0x9f

未定義oxa0 ~ 0xff

擴充套件字元(西歐文字或稱latin-1)

gb2312編碼:

ascii碼單位元組

a1a0....a9e0

(全形)英文本元,數字,特殊字元等

其中包括日文假名

a9f0 ….aff0

未定義b0a0.... d7f0

第一級常用漢字,常用漢字3775個

d8a0.... f7f0

第二級常用漢字,常用漢字3008個

f8a0….fef0

未定義

gbk編碼:包含21003個漢字,包含了iso 10646中的全部中日韓漢字,簡、繁體字融於一

8140.... a19f

很多特殊文字及繁體字

a1a0….. fef0

gb2312編碼

gb2312, gbk與ascii相容但是與unicode編碼不相容,需要裝換。

iso-10646即unicode編碼:unicode是國際組織制定的可以容納世界上所有文字和符號的字元編碼方案。unicode用數字0-0x10ffff來對映這些字元,最多可以容納1114112個字元,或者說有1114112個碼位。碼位就是可以分配給字元的數字,utf-8.utf-16、utf-32都是通過這種方式編碼的。

utf-8編碼:unicode編碼最少需要2個位元組空間來儲存文字,對於ascii表示的字元使用unicode編碼顯然低效,解決這一問題誕生了utf-8,utf-8的詳細介紹參見 http://zh.wikipedia.org/wiki/utf-8,其與unicode的對照參見http://www.utf8-chartable.de/,簡體中文對照表參見http://www.ansell-uebersetzungen.com/gbuni.html

中文編碼簡介

中文字庫有關的常見編碼有 單位元組編碼 gb2312 80 gb12345 90 gbk unicode編碼 unicode字符集 big5編碼。下面簡要介紹一下 1.gb2312 80 全稱是gb2312 80 資訊交換用漢字編碼字符集 基本集 1980年發布,是中文資訊處理的國家標準,在大陸及海...

字元編碼簡介

ascii ascii american standard code for information interchange,美國資訊交換標準 是一種單位元組編碼。計算機起源於美國,早期計算機中使用的只有英文,沒有其他的語言,而單位元組可以表示 2 8 1 即255 個字元,可以表示所有的英文本元及...

url編碼簡介

url編碼是一種瀏覽器用來打包表單輸入的格式。瀏覽器從表單中獲取所有的name和其中的值 將它們以name value引數編碼 移去那些不能傳送的字元,將資料排行等等 作為url的一部分或者分離地發給伺服器。不管哪種情況,在伺服器端的表單輸入格式樣子象這樣 thename ichabod crane...