資料的編碼表示

2021-05-21 15:36:46 字數 3004 閱讀 5283

資料的編碼表示

1.基本概念

(1)編碼

計算機要處理的資料除了數值資料以外,還有各類符號、圖形、影象和聲音等非數值資料。而計算機只能識別兩個數字。要使計算機能處理這些資訊,首先必須將各類資訊轉換成「0」和「1」表示的**,這一過程成為編碼。

(2)資料

能被計算機接受和處理的符號的集合都稱為資料。

資料和資訊是一對比較容易混淆的術語。

資料是計算機處理的物件,是資訊的載體,或稱編碼了的資訊;

資訊是資料經過加工處理以後的結果,是有意義的資料的內容。

(3)位元

位元(bit:binary digit ——二進位制數字)是指1位二進位制的數碼(即0或1)。位元是計算機中表示資訊的資料編碼中的最小單位。

(4)位元組

位元組表示被處理的一組連續的二進位制數字。通常用8位二進位制數字表示乙個位元組,即乙個位元組由8個位元組成。

位元組是儲存器系統的最小訪問單位。

2.數值資料的表示

數值資料有大小和正負之分。

通常在微型計算機中,用兩個位元組表示乙個整數,用四個位元組表示乙個實數。在二進位制數的最前面規定乙個符號位:「0」表示正數,「1」表示負數。

資料表示方法通常有定點數表示和浮點數表示兩種。

(1)定點數的表示

①定點整數:小數點的位置在最低數值位的後面,用於表示整數  (如圖1所示)

數符數值

(圖1)

②定點小數:小數點的位置約定在最高數值位的前面,用於表示小於1的純小數  (如圖2所示)。

(圖2)

(2)浮點數的表示

浮點數的表示**於數學中的指數形式:

n=m×rc

式中r表示進製數的基數。n可以用下面兩個部分表示。

①尾數m。尾數為小於1的小數。尾數的長度影響資料的精度。

②階碼c。階碼相當於數學中的指數。階碼的大小影響浮點數可以表示的資料的大小範圍。

( 如圖3所示)給出了浮點數的表示方法。

階符階碼

尾符尾數

( 圖3)

3.字元的表示

字元是人與計算機互動過程中不可缺少的重要資訊。要使計算機能處理、儲存字元資訊,首先也必須用二進位制「0」和「1」**對字元進行編碼。

下面以西文字元和漢字字元為例,介紹常用的編碼標準。

(1)ascii編碼

ascii編碼是由美國國家標準委員會制定的一種包括數字、字母、通用符號和控制符號在內的字元編碼集,全稱叫美國國家資訊交換標準**(american standard code for information interchange)。ascii碼是一種7位二進位制編碼,能表示27=128種國際上最通用的西文字元,是目前計算機中,特別是微型計算機中使用最普遍的字元編碼集。詳見表1.2。

ascii編碼包括4類最常用的字元。

①數字「0」~「9」。ascii編碼的值分別為0110000b~0111001b,對應十六進製制數為30h~39h。

②26個英文本母。大寫字母「a」~「z」的ascii編碼值為41h~5ah,小寫字母「a」~「z」的ascii編碼值為61h~7ah。

③用字元。如「+」、「-」、「=」、「*」和「/」等共32個。

④制符號。如空格符和車符等共34個。

ascii碼是一種7位編碼,它存時必須占全乙個位元組,也即占用8位:b7b6b5b4b3b2b1b0,其中b7恒為0,其餘幾位為ascii碼值。

(2)漢字編碼

國家標準漢字編碼集(gb2312-80)共收集和定義了7445個基本漢字。其中,使用頻度較高的3755個漢字定義為一級漢字。使用頻率較低的3008個漢字定義為二級漢字,共有6763個漢字。另外還定義了拉丁字母、俄文本母、漢語拼音字母、數字和常用符號等682個。

gb2312-80規定每個漢字用2個位元組的二進位制編碼,每個位元組最高位為0,其餘7位用於表示漢字資訊。

例如,漢字「啊」的國標碼的2個位元組的二進位制編碼00110000b和00100001b,對應的十六進製制數為30h和21h。

另外,計算機內部使用的漢字機內碼的標準方案是將漢字國標碼的2個位元組二進位制**的最高位置為1,從而得到對應的漢字機內碼。

如漢字「啊」的機內碼為10110000b、10100001b(即b0h、a1h)。

計算機處理字元資料時,當遇到最高位為1的位元組,便可將該位元組連同其後續最高位也為1的另乙個位元組看作1個漢字機內碼;當遇到最高位為0的位元組,則可看作乙個ascii碼西文字元,這樣就實現了漢字、西文字元的共存與區分。

2023年3月17日,國家資訊產業部和國家質量技術監督局聯合頒布了gb18030-2000《資訊科技 資訊交換用漢字編碼字符集基本集的擴充》。在新標準中採用了單、雙、四位元組混合編碼,收錄了27000多個漢字和藏、蒙、維吾爾等主要的少數民族文字,總的編輯空間超過了150萬個碼位。新標準適用於圖形字元資訊的處理、交換、儲存、傳輸、顯示、輸入和輸出,並直接與gb2312-80資訊處理交換碼所對應的事實上的內碼標準相相容。所以,新標準與現有的絕大多數作業系統、中文平台相容,能支援現有的各種應用系統。

(3)漢字輸入碼

漢字輸入方法很多,如區位、拼音、五筆字體等。不同輸入法有自己的編碼方案,所採用的編碼方案統稱為輸入碼。輸入碼進入機器後必須轉換為機內碼進行儲存和處理。

如,以全拼輸入方案鍵入「neng」,或以五筆字體輸入方案「ce」,都能得到「能」這個漢字所對應的機內碼。這個工作由漢字**轉換程式依靠事先編制好的輸入碼對照表完成轉換。

(4)漢字字形碼

漢字字形碼是一種用點陣表示字形的碼,是漢字的輸出形式。它把漢字排成點陣。常用的點陣由16×16、24×24、32×32或更高。

乙個16×16點陣的漢字字形要佔32個位元組,24×24點陣要佔72個位元組。……

所有不同的漢字字型的字形構成漢字型檔,一般儲存在硬碟上,當要顯示輸出時,才調入記憶體,檢索到要輸出的字形送到顯示器輸出。

(5)影象的表示

(6)聲音的表示

聲音是一種連續變化的模擬量,我們可以通過「模/數」轉換器對聲音頻號按固定的時間進行取樣,把它變成數字量。一旦轉變成數字形式,便可把聲音儲存在計算機中並進行處理了。

資訊編碼表示

位元 bit 二進位制位 是計算中表示資訊的資料編碼的最小單位,為一位二進位制編碼 0 or 1 位元組 byte 是儲存器系統最小單位,為八位二進位制編碼 1 byte 8 bit 我們電子裝置中的b,kb,mb,gb,tb之間的關係 b即byte 8 bit 1 tb 2 gb 1024 gb ...

漢字編碼表示與顯示

一 漢字的編碼 1981年5月,我國國家標準總局頒布了 資訊交換用漢字編碼字符集 gb2312 80 簡稱國家標準漢字編碼,也叫國標碼。國標碼共收進標準字元7445個。其中一級漢字3755個,二級漢字3008個,共計6763個漢字。由於漢字的字元多,乙個位元組即8位二進位制 不足以表示所有的常用漢字...

二進位制數的編碼表示

首先,對於乙個有符號數,最高位是表示這個數字的正負號的。0是正,1是負。先了解乙個概念,乙個數在機器裡表達的形式叫 機器數 他代表的數值叫這個機器數的 真值。二進位制編碼的實質其實是對負數的編碼,因為正數的原碼 反碼 補碼都一樣。1.原碼 規則 將乙個數的符號位數位化為0或1.x 1111111 x...