計算機基礎知識幾個常用編碼

【前言】

在計算機中，所有的資料在儲存和運算時都要使用二進位制數表示(因為計算機用高電平和低電平分別表示1和0)，例如，像a、b、c、d這樣的52個字母(包括大寫)、以及0、1等數字還有一些常用的符號(例如*、#、@等)在計算機中儲存時也要使用二進位制數來表示，而具體用哪些二進位制數字表示哪個符號，當然每個人都可以約定自己的一套(這就叫編碼)，而大家如果要想互相通訊而不造成混亂，那麼大家就必須使用相同的編碼規則。

下面就一起看一下常用的三種編碼規則。

全稱american standard code for information interchange，即美國標準資訊交換**。主要用於顯示現代英語和其他西歐語言。

ascii 碼使用指定的7 位或8 位二進位制數組合來表示128 或256 種可能的字元。

標準ascii 碼也叫基礎ascii碼，使用7 位二進位制數來表示所有的大寫和小寫字母，數字0 到9、標點符號，以及在美式英語中使用的特殊控制字元。

後128個稱為擴充套件ascii碼。許多基於x86的系統都支援使用擴充套件(或"高")ascii。擴充套件ascii 碼允許將每個字元的第8 位用於確定附加的128 個特殊符號字元、外來語字母和圖形符號。

即：用8位表示乙個字元，但是如果想在計算機中表示出其他語言文字，例如中文，ascii碼的乙個位元組不夠用。

又稱萬國碼。unicode 是為了解決傳統的字元編碼方案的侷限而產生的，它為每種語言中的每個字元設定了統一並且唯一的二進位制編碼，以滿足跨語言、跨平台進行文字轉換、處理的要求。各國有自己的編碼規則，unicode就是為統一所有文字應運而生的編碼。

即：至少佔兩個位元組。（ecs2、ecs4）ecs4用32位表示乙個字元（可以是任何字元），前面用0填充，但非常浪費空間。

utf-8（可變長編碼）的特點是對不同範圍的字元使用不同長度的編碼，對unicode進行壓縮，如果unicode編碼中前面都是0，則刪除，但保留的必須是8的倍數。既解決了全球語言通用編碼的問題，又解決了占用空間過大的問題。常用的英文本母被編碼成 1 個位元組，漢字通常是 3 個位元組。

utf-8 編碼有乙個額外的好處，就是 ascii 編碼實際上可以被看成是 utf-8 編碼的一部分，所以，大量只支援 ascii 編碼的歷史遺留軟體可以在 utf-8編碼下繼續工作。

【注】utf-8儲存中文乙個字元用3個位元組。gbk和gb2312儲存乙個中文字元用2個位元組。

在python直譯器中：

python2預設使用ascii編碼（可以使用# encoding：utf-8指定編碼）

python3預設使用utf-8編碼

計算機基礎知識幾個常用編碼

計算機基礎知識計算機基礎知識彙總

計算機基礎知識關於計算機的基礎知識

計算機基礎知識進製和編碼

計算機基礎知識 幾個常用編碼

計算機基礎知識 計算機基礎知識彙總

計算機基礎知識 關於計算機的基礎知識

計算機基礎知識 進製和編碼

相關推薦

計算機基礎知識幾個常用編碼

計算機基礎知識計算機基礎知識彙總

計算機基礎知識關於計算機的基礎知識

計算機基礎知識進製和編碼