編碼和字符集

2021-08-21 11:20:43 字數 525 閱讀 3167

ascii、unicode、gb2312等都是字符集,用於定義編號指代的字元。utf-8,utf-16則是unicode的編碼格式。

ascii

ascii只有128個,能表示英文、數字、常用符號。

gb2312

gb2312是中文特有的字符集,有2萬多個字元,前128個和ascii保持一致,因此能相容ascii。ascii碼用1個位元組表示,中文用2個位元組表示。gbk是在gb2312基礎上擴容而來的。

unicode

unicode則是為了讓全球能用上統一的字符集而發明的,有6萬多個字元,每個字元佔2個位元組,比如英文a,ascii是97、unicode則是0097(示意的說法)。中文只收錄最常用的6000多個漢字。unicode雖然是大一統的標準,但是在表示英文時浪費空間,並且許多古老的程式只支援ascii,unicode從標準設計上來說是不相容ascii。正因如此在實際使用中unicode會以utf-8,utf-16等編碼方式儲存是傳輸。utf-8保持和ascii一致,英文使用1個位元組,其他字元使用2-6個位元組,比如中文多數是3個位元組。

字符集和字符集編碼詳解

gb2312 gbk ascii asni unicode utf 8等等,這些字眼非常常見,同時帶來許多的問題。本文只是從理解的角度,說明以上內容的不同含義從而達到區分其用法的目的是夠了的。至於實現方式,可以查閱各自的詳細標準官方文件。先解釋乙個概念,什麼是字符集,嗯,不解釋了,我弄乙個吧 從今以...

字符集和編碼

什麼是字元?字元就是文字和符號的統稱,字符集就是多個字元的集合,字符集有很多種,常見的有ascii,gb2312,unicode字符集。什麼是編碼?計算機要準確的處理字符集中的文字,就需要對字元進行編碼。對unicode字符集編碼的叫做unicode編碼,對ascii字符集編碼叫做ascii編碼。a...

字符集和編碼

今天被乙個python編碼問題折騰了半下午。編碼問題一直是個讓人比較糾結的問題,寫這篇文章想簡單的總結下python中一些常見的編碼問題以及解決方式。這是第一篇,先總結下字符集和編碼的一些基本概念和內容。當中ascii標準本身就規定了字元和字元編碼方式,採用單位元組編碼,總共能夠編碼128個字元,如...