計算機中的字元編碼

2021-08-14 12:22:33 字數 1693 閱讀 8147

計算機中的字元編碼

ascii: 美國資訊交換標準**(american standard code for information interchange), 基於拉丁字母的一套電腦編碼系統。它主要用於顯示現代英語和其他西歐語言。它是現今最通用的單位元組編碼系統。

gb2312: 國標2312編碼, 單雙位元組編碼,單位元組0~127用於相容ascii,雙位元組表示中文簡體字符集,一共收錄了7445個字元,包括6763個漢字和682個其它符號。「高位位元組」使用了0xa1-0xf7(把01-87區的區號加上0xa0),「低位位元組」使用了0xa1-0xfe(把01-94加上0xa0)。

gbk: 國標擴充套件編碼, 單雙位元組編碼,是gb2312編碼的擴充,gbk1.0收錄了21886個符號,擴充了包括中文繁體及國家標準gb13000-1中的全部中日韓漢字。

gb18030: 國標18030編碼, 單雙四位元組編碼,是gbk編碼的擴充,其中單雙位元組和gbk是完全相容的。覆蓋中文、日文、朝鮮語和藏文、蒙文、維吾爾文等主要的少數民族文字。

gb編碼: 即gb2312,gbk,gb18030等國標碼的通稱,按發展史排ascii->gb2312->gbk->gb18030,完全向下相容。

big5: 大五碼, 台灣地區正體中文標準字符集,採用雙位元組編碼,共收錄13053個中文字,2023年實施。

unicode: 是一種字元編碼方法, 由國際組織設計, 可以容納全世界所有語言文字的編碼方案. unicode的學名是"universalmultiple-octet coded character set". 簡稱為ucs。ucs可以看作是"unicode characterset"的縮寫。有ucs-2(雙位元組編碼)、ucs-4(四位元組編碼)。不相容ascii。

utf: 統一碼傳輸編碼(unicode/ucs transformation format), 是ucs的傳輸編碼方案總稱, 常見的utf規範包括utf-8、utf-7、utf-16。

utf8: 統一碼傳輸編碼方案的一種, 以8位為單元對ucs進行編碼, ascii不作變換, 其他字元做變長編碼, 每個字元1-3 byte。

ansi: 美國國家標準學會的標準碼(american national standards institute),為了擴充ascii編碼,以用於顯示本國的語言的字元編碼規範,不同的國家和地區制定了不同的標準,由此產生了 gb2312, big5, jis 等各自的編碼標準。這些使用 2 個位元組來代表乙個字元的各種延伸編碼方式,稱為ansi編碼,也稱為mbcs編碼(多位元組字符集)。在簡體中文系統下,ansi 編碼代表 gb2312 編碼,在日文作業系統下,ansi 編碼代表 jis 編碼。

mbs: 多位元組字串(multi-byte string), 變長編碼方案, 遵循ansi字元編碼規範, 主要用於字串的儲存和傳輸, 編碼型別有ascii,gb,big5,utf-8。相關c函式strlen,strcmp,strcpy,strcat,strdup

wcs: 寬字元字串 (wide-character string), 定長編碼方案, 遵循unicode字元編碼規範, 主要用於內部處理(如字元編碼轉換中間處理), 編碼型別有ucs-2(windows),ucs-4(linux)。相關c函式wcslen,wcscmp,wcscpy,wcscat,wcsdup,wcstombs,mbstowcs

字元編碼規範: ansi,unicode,mbs,wcs

實際編碼方法: ascii,gb2312,gbk,gb13080,big5,jis,utf8,ucs2,ucs4

計算機中的編碼

ascii 英文編碼,用乙個位元組 0 255 表示英文本元 gb2312 漢字編碼,用兩個位元組表示中文漢字,同時相容英文 多餘的部分用0補足 但是其他國家的文字都有自己的編碼方式,當不同國家的文字在一起時不能相容,此時出現了unicode編碼 但是unicode編碼在表示英文本元時會浪費一倍的儲...

計算機中的編碼問題

2017 06 25 19 46 48 計算機中存在著很多編碼,諸如ascii,gbk,iso,utf 8,utf 16等,那這些編碼到底是怎麼產生,又有什麼區別呢?字元的含義 字元就是一系列有意義的圖形,如 a,u等等。該開始的時候,是美國人發明了計算機語言,英文本母只有26個,加上加減乘除,阿拉...

計算機中的字元編碼與字符集的關係

什麼是字符集 在介紹字符集之前,我們先了解下為什麼要有字符集。我們在計算機螢幕上看到的是實體化的文字,而在計算機儲存介質中存放的實際是二進位制的位元流。那麼在這兩者之間的轉換規則就需要乙個統一的標準,否則把我們的u盤查到老闆的電腦上文件就亂碼了,小夥伴qq上傳過來的檔案在我們本地開啟又亂碼了。ps ...