HTML之字符集總結

語言字符集彙總

1 ascii碼 1個位元組 0—127位使用了，共128個位置現代英語字元+一些西歐語言字元美國某些標準化組織制定的

2 擴充套件ascii碼 1個位元組 128—256位使用了，共128個位置指的就是ibm擴充套件字符集，僅僅是一段時期內的範圍標準，但最終沒成為國際標準。 ibm字符集的後128位字元。

3 ibm字符集 1個位元組 0—255位使用了，共256個位置一些帶重音的字元+乙個小寫希臘字母+一些塊形或線形圖形字元

被燒進無數顯示卡和印表機的rom中

被許多應用程式用於修飾其文字模式的顯示方式

並沒有為所有使用拉丁字母表的西歐語言提供足夠多的帶重音字元

也不適用於windows，windows不需要圖形字元，因為它有乙個完全圖形化的系統

附加的字元也被新增到ascii控制字元的編碼位置，這是因為大多數控制字元都不是拿來顯示用的

ascii碼字符集和ibm字符集的區別：ibm字符集將前128個字元中的控制字元換成了圖形字元。

4 ansi編碼在簡體中文windows作業系統中，ansi 編碼代表 gbk 編碼

在日文windows作業系統中，ansi 編碼代表 shift_jis 編碼

在正體中文windows作業系統中，ansi編碼代表big5

總結：不同國家和地區，使用了不同的標準，且不同標準之間不相容。

5 dbcs系列編碼

gb2312 2個位元組 0-127同ascii碼，半形字元

128-65535，全形字符，數學符號、羅馬希臘的字母、日文的假名、7000多個簡體漢字兩個大於128的數表示乙個漢字字元

gbk 2個位元組 gb2312的內容+20000個新漢字(包括繁體)和符號第乙個位元組大於128，第二個位元組可以小於128的數表示乙個漢字字元，相容了gbk2312

gb18030 2個位元組 gbk內容+少數民族的文字，把gbk裡沒用完的碼位放新加入的字元也是第乙個字元大於128，第二個字元隨便，相容gbk

6 擴充acsii字符集

iso/iec 8859-1 (latin-1) - 西歐語言

iso/iec 8859-2 (latin-2) - 中歐語言

iso/iec 8859-3 (latin-3) - 南歐語言。世界語也可用此字符集顯示。

iso/iec 8859-4 (latin-4) - 北歐語言

iso/iec 8859-5 (cyrillic) - 斯拉夫語言

iso/iec 8859-6 (arabic) - 阿拉伯語

iso/iec 8859-7 (greek) - 希臘語

iso/iec 8859-8 (hebrew) - 希伯來語（視覺順序）

iso 8859-8-i - 希伯來語（邏輯順序）

iso/iec 8859-9（latin-5 或 turkish）- 它把latin-1的冰島語字母換走，加入土耳其語字母。

iso/iec 8859-10（latin-6 或 nordic）- 北日耳曼語支，用來代替latin-4。

iso/iec 8859-11 (thai) - 泰語，從泰國的 tis620 標準字集演化而來。

iso/iec 8859-13（latin-7 或 baltic rim）- 波羅的語族

iso/iec 8859-14（latin-8 或 celtic）- 凱爾特語族

iso/iec 8859-15 (latin-9) - 西歐語言，加入latin-1欠缺的芬蘭語字母和大寫法語重音字母，以及歐元（€）符號。

iso/iec 8859-16 (latin-10) - 東南歐語言。主要供羅馬尼亞語使用，並加入歐元符號。

7 unicode

unicode有兩種版本ucs-2、ucs-4，這兩個版本只是字符集標準。

ucs-2，一共兩個位元組，0-65535的位置一共36636個碼位。

ucs-4，一共四個位元組，第乙個位元組首位為0一共可分為128組，第二個位元組可以分為256個平面，第三個位元組分為256行，第四個位元組分為256個字元，這樣乙個平面是256*256=65536個字元，其中第0組的第0面叫做bmp平面。這128組又256個平面，現今為止只用了17個平面，即0-16平面。目前為止，在unicode 5.0.0版本中，已定義的碼位只有238605個，分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定義了兩個各佔65534個碼位的專用區。所謂專用區，就是保留給大家放自定義字元的區域，可以簡寫為pua。

ucs-2、ucs-4是字元的排序標準方案，utf-8、utf-16、utf-32是字元編碼方案，前者是一套標準，後者是一套編碼方法。

字元表ucs-2是用兩個位元組畫出來的，字元表ucs-4是用4個位元組畫出來的，其中ucs-4的第0組第0平面，去掉四個位元組的前兩個位元組，得到的就是一模一樣的ucs-2字元表。

8 utf-8 1-4位元組，每次傳輸8個位元組。儲存時1110***x 10****** 10****** 第乙個位元組1110代表總共三個位元組，後面的10都是開頭格式。前128個符號1個位元組，同ascii碼，所以相容ascii碼。

utf-16 每次傳輸16個位元組，x<65536時，2個位元組，儲存的是對應正常二進位制位。當x>=65536時，x-65536=u,把u寫成******xxyyyyyyyy形式，然後x的表示是110110******xx110111yyyyyyyy。

utf-32 4個位元組，定長，儲存對應ascii碼。

9 計算機儲存時候，unicode預設是小頭儲存，就是從後往前儲存；unicode big是大頭儲存。

10 當有unicode的時候，iso搞出來乙個ucs通用字符集，但開始兩者是不同標準。後來的標準都互相相容。utf-16是ucs-2的父集，utf-32是ucs-4的子集。

11 ucs-2,ucs-4都是集標準與儲存標準於一身的字符集，utf-32是不加ucs-4空位的字符集，因此是它的子集，ucs-4標準包括utf-32定義的所有字元加上沒用的所有空位(從字元的個數來講，ucs-4=utf-32的字元+剩餘的空位)。

12 檔案unicode格式儲存時候，用的是utf-16小頭，unicode big指的是utf-16大頭。

13 bom = zero width no-break space 零寬度不跳出空格其十六進製制是feff,utf-8中**是 ef bb bf，可以依次來確定unicode是大頭feff，還是小頭fffe，還是utf-8 ef bb bf.

HTML之字符集總結

HTML設定字符集

mysql 字符集含義 mysql字符集總結

如何設定html字符集

HTML之字符集總結

HTML設定字符集

mysql 字符集含義 mysql字符集總結

如何設定html字符集

相關推薦