計算機基礎知識 幾個常用編碼

2021-09-24 13:59:57 字數 1236 閱讀 2758

【前言】

在計算機中,所有的資料在儲存和運算時都要使用二進位制數表示(因為計算機用高電平和低電平分別表示1和0),例如,像a、b、c、d這樣的52個字母(包括大寫)、以及0、1等數字還有一些常用的符號(例如*、#、@等)在計算機中儲存時也要使用二進位制數來表示,而具體用哪些二進位制數字表示哪個符號,當然每個人都可以約定自己的一套(這就叫編碼),而大家如果要想互相通訊而不造成混亂,那麼大家就必須使用相同的編碼規則。

下面就一起看一下常用的三種編碼規則。

全稱american standard code for information interchange,即美國標準資訊交換**。主要用於顯示現代英語和其他西歐語言。

ascii 碼使用指定的7 位或8 位二進位制數組合來表示128 或256 種可能的字元。

標準ascii 碼也叫基礎ascii碼,使用7 位二進位制數來表示所有的大寫和小寫字母,數字0 到9、標點符號, 以及在美式英語中使用的特殊控制字元。

後128個稱為擴充套件ascii碼。許多基於x86的系統都支援使用擴充套件(或"高")ascii。擴充套件ascii 碼允許將每個字元的第8 位用於確定附加的128 個特殊符號字元、外來語字母和圖形符號。

即:用8位表示乙個字元,但是如果想在計算機中表示出其他語言文字,例如中文,ascii碼的乙個位元組不夠用。

又稱萬國碼。unicode 是為了解決傳統的字元編碼方案的侷限而產生的,它為每種語言中的每個字元設定了統一並且唯一的二進位制編碼,以滿足跨語言、跨平台進行文字轉換、處理的要求。各國有自己的編碼規則,unicode就是為統一所有文字應運而生的編碼。

即:至少佔兩個位元組。(ecs2、ecs4)ecs4用32位表示乙個字元(可以是任何字元),前面用0填充,但非常浪費空間。

utf-8(可變長編碼)的特點是對不同範圍的字元使用不同長度的編碼,對unicode進行壓縮,如果unicode編碼中前面都是0,則刪除,但保留的必須是8的倍數。既解決了全球語言通用編碼的問題,又解決了占用空間過大的問題。常用的英文本母被編碼成 1 個位元組,漢字通常是 3 個位元組。

utf­-8 編碼有乙個額外的好處,就是 ascii 編碼實際上可以被看成是 utf-­8 編碼的一部分,所以,大量只支援 ascii 編碼的歷史遺留軟體可以在 utf­-8編碼下繼續工作。

【注】utf-8儲存中文乙個字元用3個位元組。gbk和gb2312儲存乙個中文字元用2個位元組。

在python直譯器中:

python2預設使用ascii編碼(可以使用# encoding:utf-8指定編碼)

python3預設使用utf-8編碼

計算機基礎知識 計算機基礎知識彙總

計算機專業的那六大件 組成原理,作業系統,資料庫,編譯原理,計算機網路,資料結構,其次還得加上分布式的基礎知識,因為現在的系統都變成分布式的了。如果你是做應用層開發的,那幾門課程中的有些內容和日常工作關聯度不大,我挑那些最重要的來說一說,也算是乙個最小集合吧!1,計算機組成原理 如果你不是做作業系統...

計算機基礎知識 關於計算機的基礎知識

一 計算機發展 世界計算機 1 第一台計算機 eniac,1946年,美國研製的世界上第一台計算機,開闢了計算機技術的新紀元。2 計算機之父 馮 諾依曼參與eniac研究,提出計算機的二進位制 五大組成部分 程式控制。3 計算機發展階段 第一代電子管計算機 1946 1958年。第二代電晶體計算機 ...

計算機基礎知識 進製和編碼

1 二進位制 二進位制是計算技術中廣泛採用的一種數制。二進位制資料是用0和1兩個數碼來表示的數。它的基數為2,進製規則是 逢二進一 借位規則是 借一當二 由18世紀德國數理哲學大師萊布尼茲發現。當前的計算機系統使用的基本上是二進位制系統,資料在計算機中主要是以補碼的形式儲存的。計算機中的二進位制則是...