字元,字符集,編碼之間的區別

2021-06-29 16:48:47 字數 863 閱讀 8848

關於字元,字符集,編碼格式,沒有很清晰的認識。這兩天在翻譯類的時候,遇到編碼問題,就查了n多資料,再這裡做乙個總結。便於日後複習,以及幫助別人。

首先介紹區分一下三者的具體含義:

字元:不是特定某種數字或者文字,而是關於文字和符號的總成,包括各個國家的文字,標點符號,圖形符號,數字等等。

例如:乙個漢字,乙個標點符號逗號,乙個英文本母a,乙個數字10,這都是字元。

字符集:是多個字元的集合,字符集種類很多,每個字符集包含的字元個數也不一定相同,常見的字符集有:ascii字符集,unicode字符集,gb2312字符集 iso 8859字符集等等。

編碼:計算機只能識別二進位制1和0.但是日常我們用字元編到的字符集,比入漢字,計算機是不能直接識別的,所以要將字符集轉化為計算機可以識別的二進位制,這個轉化過程就是編碼。而不同的字符集又都有對應的不用編碼方式,例如unicode字符集對應的編碼方式有utf-8,utf-16,utf-32等。所以說字元編碼就是以二進位制的數也對應字符集的字元。           規定每個字元分別用乙個位元組還是多個位元組來儲存,用那些位元組來儲存,這個規定就叫做「編碼「;

各個國家和地區在制定編碼標準的時候,字元的集合和編碼一般都是同時制定的。因此,平常我們所說的字符集,如入gb2312,gbk,jis等,除了有字元的集合,這層含義外,同時也包含了編碼的含義。有的字符集有多種編碼方式,有的則只有一種,比如,unicode字符集有多種編碼方式,如utf-8,utf-16等。ascii只有一種能夠;大多數mbcs(包括gb2312)也只有一種。

好吧 就暫且寫到這裡,關於編碼 字符集的知識還有很多很多,不過我不是研究這個的,我現在的目標很簡單,做好ios開發,所以先區分到這裡,以後有時間,可以繼續研究下編碼。ok~~準備睡覺啦~~週六日休息~整理關於地圖導航相關的知識哈·~~

字元,字符集,編碼的區別

ascii碼為單位元組,用7位二進位制數表示,由於計算機1個位元組是8位二進位制數,所以最高位為0,即00000000 01111111或0x00 0x7f。unicode 中文 萬國碼 國際碼 統一碼 單一碼 是電腦科學領域裡的一項業界標準。它對世界上大部分的文字系統進行了整理 編碼,使得電腦可以...

編碼字符集與字符集編碼的區別

無論歷史上的ucs還是現如今的unicode,兩者指的都是編碼字符集,而不是字符集編碼。乙個抽象字符集其實就是指字元的集合,例如所有的英文本母是乙個抽象字符集,所有的漢字是乙個抽象字符集,在給乙個抽象字元集合中的每個字元都分配乙個 整數編號之後 注意這個整數並沒有要求大小 這個字符集就有了順序,就成...

字元 字符集 字元編碼

字元是指計算機 中使用的字母 數字 字和符號 包括 1 2 3 a b c 等等。在 ascii 編碼中,乙個英文本母字元儲存需要1個位元組。在 gb 2312 編碼或 gbk 編碼中,乙個漢字 字元儲存需要2個位元組 在utf 8編碼中,乙個英文本母字元儲存需要1個位元組,乙個漢字字元儲存需要3到...