關於字符集和編碼的問題

2021-06-13 02:24:47 字數 1309 閱讀 8307

我們所看所說的都是某種字元,如英文 漢字等  ==》字符集

計算機儲存與處理的都是用二進位制數

==》字元編碼

字符集(charset):某種(各種)文字和符號的集合

字元編碼(character encoding):在符號集合與數字系統之間建立的對應關係。也就是將符號轉換為計算機可以接受的數字系統的數,稱為數字**。

編碼:按照何種規則將字元儲存在計算機中,如'a'用什麼表示,稱為編碼。

解碼:將儲存在計算機中的二進位制數解析顯示出來,稱為解碼。

要知道:同樣的文字,不同的編碼所儲存的二進位制資料是不同的。

ascii(american standard code for information interchange):它是現今最通用的單位元組編碼系統,主要用於顯示現代英語

ascii字符集:主要包括控制字元,英文大小寫字元 阿拉伯數字和西文符號等,也叫"半形"字元

ascii編碼:  將ascii字符集轉換為計算機可以接受的數字系統的數的規則,用乙個位元組來表示

gb2312:這是比較通用的漢字的編碼系統。使用兩個位元組來表示。涵蓋了ascii字符集,因包含的符號較全面,也稱為"全形"字元

unicode編碼系統為表達任意語言的任意字元而設計。它使用4位元組的數字來表達每個字母 符號 或者表意文字。每個數字代表唯一的至少在某種語言中使用的符號。

可以說unicode是字符集,utf-32 utf-16 utf-8是三種基於unicode的編碼規則。

utf-32  (32-bit unicode transformation format):固定用4個位元組的數字來代表唯一的某個字元。

utf-16  (32-bit unicode transformation format):0到65535之內用2個位元組表示,超出則用4個位元組表示

utf-8   (8-bit unicode transformation format):128個us-ascii字元只需乙個位元組編碼

拉丁文 希臘文 亞美尼亞語等用兩個位元組編碼

基本多文種平面字元,如漢字使用三個位元組編碼

極少使用的用四位元組編碼

是現今世界較通用的編碼方式

要點:1、用什麼樣的編碼格式錄入(儲存,儲存),就告訴瀏覽器用什麼樣的編碼格式()解碼顯示。

2、utf-8+bom編碼似乎能夠較好的解決因**移植引起的亂碼問題。utf-8是推薦的編碼方式。

幾個常用的特殊字元的編碼:

"		=>		"

' => '

=>  

< => <

> => >

& => &

字符集和字符集編碼詳解

gb2312 gbk ascii asni unicode utf 8等等,這些字眼非常常見,同時帶來許多的問題。本文只是從理解的角度,說明以上內容的不同含義從而達到區分其用法的目的是夠了的。至於實現方式,可以查閱各自的詳細標準官方文件。先解釋乙個概念,什麼是字符集,嗯,不解釋了,我弄乙個吧 從今以...

字符集和編碼

什麼是字元?字元就是文字和符號的統稱,字符集就是多個字元的集合,字符集有很多種,常見的有ascii,gb2312,unicode字符集。什麼是編碼?計算機要準確的處理字符集中的文字,就需要對字元進行編碼。對unicode字符集編碼的叫做unicode編碼,對ascii字符集編碼叫做ascii編碼。a...

編碼和字符集

ascii unicode gb2312等都是字符集,用於定義編號指代的字元。utf 8,utf 16則是unicode的編碼格式。ascii ascii只有128個,能表示英文 數字 常用符號。gb2312 gb2312是中文特有的字符集,有2萬多個字元,前128個和ascii保持一致,因此能相容...