HTML之字符集總結

2021-07-12 04:26:29 字數 3178 閱讀 2453

語言字符集彙總

1   ascii碼   1個位元組   0—127位使用了,共128個位置   現代英語字元+一些西歐語言字元  美國某些標準化組織制定的

2   擴充套件ascii碼   1個位元組   128—256位使用了,共128個位置  指的就是ibm擴充套件字符集,僅僅是一段時期內的範圍標準,但最終沒成為國際標準。 ibm字符集的後128位字元。

3   ibm字符集       1個位元組  0—255位使用了,共256個位置  一些帶重音的字元+乙個小寫希臘字母+一些塊形或線形圖形字元

被燒進無數顯示卡和印表機的rom中

被許多應用程式用於修飾其文字模式的顯示方式

並沒有為所有使用拉丁字母表的西歐語言提供足夠多的帶重音字元

也不適用於windows,windows不需要圖形字元,因為它有乙個完全圖形化的系統

附加的字元也被新增到ascii控制字元的編碼位置,這是因為大多數控制字元都不是拿來顯示用的

ascii碼字符集和ibm字符集的區別:ibm字符集將前128個字元中的控制字元換成了圖形字元。

4   ansi編碼   在簡體中文windows作業系統中,ansi 編碼代表 gbk 編碼

在日文windows作業系統中,ansi 編碼代表 shift_jis 編碼

在正體中文windows作業系統中,ansi編碼代表big5

總結:不同國家和地區,使用了不同的標準,且不同標準之間不相容。

5   dbcs系列編碼

gb2312   2個位元組  0-127同ascii碼,半形字元

128-65535,全形字符,數學符號、羅馬希臘的字母、日文的假名、7000多個簡體漢字  兩個大於128的數表示乙個漢字字元

gbk   2個位元組   gb2312的內容+20000個新漢字(包括繁體)和符號  第乙個位元組大於128,第二個位元組可以小於128的數表示乙個漢字字元,相容了gbk2312

gb18030   2個位元組   gbk內容+少數民族的文字,把gbk裡沒用完的碼位放新加入的字元   也是第乙個字元大於128,第二個字元隨便,相容gbk

6   擴充acsii字符集

iso/iec 8859-1 (latin-1) - 西歐語言

iso/iec 8859-2 (latin-2) - 中歐語言

iso/iec 8859-3 (latin-3) - 南歐語言。世界語也可用此字符集顯示。

iso/iec 8859-4 (latin-4) - 北歐語言

iso/iec 8859-5 (cyrillic) - 斯拉夫語言

iso/iec 8859-6 (arabic) - 阿拉伯語

iso/iec 8859-7 (greek) - 希臘語

iso/iec 8859-8 (hebrew) - 希伯來語(視覺順序)

iso 8859-8-i - 希伯來語(邏輯順序)

iso/iec 8859-9(latin-5 或 turkish)- 它把latin-1的冰島語字母換走,加入土耳其語字母。

iso/iec 8859-10(latin-6 或 nordic)- 北日耳曼語支,用來代替latin-4。

iso/iec 8859-11 (thai) - 泰語,從泰國的 tis620 標準字集演化而來。

iso/iec 8859-13(latin-7 或 baltic rim)- 波羅的語族

iso/iec 8859-14(latin-8 或 celtic)- 凱爾特語族

iso/iec 8859-15 (latin-9) - 西歐語言,加入latin-1欠缺的芬蘭語字母和大寫法語重音字母,以及歐元(€)符號。

iso/iec 8859-16 (latin-10) - 東南歐語言。主要供羅馬尼亞語使用,並加入歐元符號。

7   unicode

unicode有兩種版本ucs-2、ucs-4,這兩個版本只是字符集標準。

ucs-2,一共兩個位元組,0-65535的位置一共36636個碼位。

ucs-4,一共四個位元組,第乙個位元組首位為0一共可分為128組,第二個位元組可以分為256個平面,第三個位元組分為256行,第四個位元組分為256個字元,這樣乙個平面是256*256=65536個字元,其中第0組的第0面叫做bmp平面。這128組又256個平面,現今為止只用了17個平面,即0-16平面。目前為止,在unicode 5.0.0版本中,已定義的碼位只有238605個,分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定義了兩個各佔65534個碼位的專用區。所謂專用區,就是保留給大家放自定義字元的區域,可以簡寫為pua。

ucs-2、ucs-4是字元的排序標準方案,utf-8、utf-16、utf-32是字元編碼方案,前者是一套標準,後者是一套編碼方法。

字元表ucs-2是用兩個位元組畫出來的,字元表ucs-4是用4個位元組畫出來的,其中ucs-4的第0組第0平面,去掉四個位元組的前兩個位元組,得到的就是一模一樣的ucs-2字元表。

8   utf-8  1-4位元組,每次傳輸8個位元組。儲存時1110***x 10****** 10******  第乙個位元組1110代表總共三個位元組,後面的10都是開頭格式。前128個符號1個位元組,同ascii碼,所以相容ascii碼。

utf-16 每次傳輸16個位元組,x<65536時,2個位元組,儲存的是對應正常二進位制位。當x>=65536時,x-65536=u,把u寫成******xxyyyyyyyy形式,然後x的表示是110110******xx110111yyyyyyyy。

utf-32 4個位元組,定長,儲存對應ascii碼。

9   計算機儲存時候,unicode預設是小頭儲存,就是從後往前儲存;unicode big是大頭儲存。

10  當有unicode的時候,iso搞出來乙個ucs通用字符集,但開始兩者是不同標準。後來的標準都互相相容。utf-16是ucs-2的父集,utf-32是ucs-4的子集。

11  ucs-2,ucs-4都是集標準與儲存標準於一身的字符集,utf-32是不加ucs-4空位的字符集,因此是它的子集,ucs-4標準包括utf-32定義的所有字元加上沒用的所有空位(從字元的個數來講,ucs-4=utf-32的字元+剩餘的空位)。  

12   檔案unicode格式儲存時候,用的是utf-16小頭,unicode big指的是utf-16大頭。

13    bom = zero width no-break space 零寬度不跳出空格  其十六進製制是feff,utf-8中**是 ef bb bf,可以依次來確定unicode是大頭feff,還是小頭fffe,還是utf-8 ef bb bf.

HTML設定字符集

html設定字符集 meta http equiv content type html字符集用於說明html頁面的內容所使用的文字和語言。html語言用於告訴瀏覽器該以什麼內碼 什麼語言來顯示網頁。錯誤的設定網頁的字符集會導致頁面出現亂碼的現象。語法 說明 http equiv傳送http通訊協議的...

mysql 字符集含義 mysql字符集總結

檢視相關字符集的命令 檢視資料庫支援的所有字符集 兩種命令一樣 show character set show char set 檢視字符集對應的collate show collation 檢視系統字符集設定,包括所有的字符集設定 show variables like char mysql sh...

如何設定html字符集

1 首先,說一說為什麼要設定html檔案的字符集 如果不指定的話,瀏覽器會使用本地作業系統的字符集,那麼,如果你的應用需要支援多國語言的話,就會有問題,比如你的頁面裡有中文字元,終端使用者的本地作業系統的字符集是iso 8859 1,那麼瀏覽器就會用iso 8859 1來解碼你的html檔案。這樣就...