談談計算機中的整數

前言

整形長度

整數在記憶體中的儲存形式

整形儲存的原理**

整數是從小學就開始學習的內容，作為程式設計師，整形是平時玩的最不亦樂乎的東西。這篇博文，內容基本都在大學計算機基礎書本**現，這裡就算做個人筆記，加深記憶~

以c語言為例，整形是int。一般占用4個位元組，即可以表示2^32個數字，大約43億。雖然已經很大了，不過如果要表示更大的數字，比如銀河系的星球個數，那就需要儲存量更大的資料型別，於是便出現了long。如果要儲存的資料是比較小的，為了不浪費記憶體空間，又出現了short型別。三者的關係是：

short 至少占用 2 個位元組。

int 建議為乙個機器字長。32 位環境下機器字長為 4 位元組，64 位環境下機器字長為 8 位元組。

short 的長度不能大於 int，long 的長度不能小於 int。

也就是說，short可能和int一樣大，int也可能和long一樣大。

c語言規定，int在記憶體中的最高位為符號位，0~30 位表示數值，31 位表示正負號。當然，如果明確資料的範圍是正數，c語言也提供了無符號數，即只能表達正數範圍的整數。無符號數沒有符號位，相當於32位都是表示數值，所以無符號數表示正數的範圍是有符號數的兩倍。

加減法是最基本的運算，所以在計算機中直接由硬體提供，所以硬體的設計要盡量簡單。有符號數因為有符號位，計算機要專門識別符號位和數值位，無疑加大了硬體電路的複雜度，所以，人們想出了兩個優化目標：

1.讓符號位也參與運算，簡化電路

2.加法和減法統一

那如何優化呢？這要先從幾個概念說起~

原碼：

將乙個整數轉換成二進位制形式，就是其原碼。例如short a = 7;，a 的原碼就是0000 0000 0000 0111。

通俗的理解，原碼就是乙個整數本來的二進位制形式。

反碼：

對於正數，它的反碼就是其原碼（原碼和反碼相同）；負數的反碼是將原碼中除符號位以外的所有位（數值位）取反，也就是 0 變成 1，1 變成 0。例如short a = 6;，a 的原碼和反碼都是0000 0000 0000 0110；更改 a 的值a = -18;，此時 a 的反碼是1111 1111 1110 1101。

補碼：

對於正數，它的補碼就是其原碼（原碼、反碼、補碼都相同）。負數的補碼是其反碼加 1。例如short a = 6;，a 的原碼、反碼、補碼都是0000 0000 0000 0110；更改 a 的值a = -18;，此時 a 的補碼是1111 1111 1110 1110。

原碼、反碼、補碼的概念只對負數有實際意義，對於正數，它們都一樣。

所以，將整數寫入計算機記憶體，會將原碼轉化為補碼，讀取整數的時候，會將補碼轉化為原碼。

（以下為了方便，整數的表示使用1-2個位元組表示）

如果要讓符號位也參與運算，並且加法和減法統一，正數直接使用原碼是沒有問題的，但是如何有負數，就不正確了，例如:

1 - 1 = 1 + (-1) = [00000001]原 + [10000001]原 = [10000010]原 = -2

顯然是錯誤的。

為了解決原碼做減法的問題, 出現了反碼:

計算十進位制的表示式: 1-1=0

1 - 1 = 1 + (-1) = [0000 0001]原 + [1000 0001]原= [0000 0001]反 + [1111 1110]反 = [1111 1111]反 =[1000 0000]原 =-0

是不是反碼就可以解決問題了呢？看下面例子：

13 - 5 = 13 + (-5)

= [0000 0000 0000 1101]原 + [1000 0000 0000 0101]原

= [0000 0000 0000 1101]反 + [1111 1111 1111 1010]反

= [1 0000 0000 0000 0111]反

= [0000 0000 0000 0111]反

= [0000 0000 0000 0111]原

= 7顯然是錯的。但是5-13使用反碼的計算結果是正確的，這個讀者可以自行驗證~~

上面的例子，其實是為了說明使用反碼計算的兩個明顯的問題：

絕對值大的數減去絕對值小的數結果會比正確結果少1

可能出現原碼1000 0000，即-0的尷尬結果

為了解決以上兩個問題，勤勞勇敢更聰明的計算機設計者們設計出了補碼。

使用補碼計算13-5：

13 - 5 = 13 + (-5)

= [0000 0000 0000 1101]補 + [1111 1111 1111 1011]補

= [1 0000 0000 0000 1000]補

= [0000 0000 0000 1000]補

= [0000 0000 0000 1000]反

= [0000 0000 0000 1000]原

= 8結果就是正確的了。為什麼呢？

補碼其實就是反碼加1（針對負數而言），絕對值大的數減去絕對值小的數，結果為正數，整個過程負數反碼轉為補碼只有一次（被減數轉為補碼），所以就是相當於反碼計算的結果加1,。而絕對值小的數堅絕對值大的數，結果為負數，整個過程負數反碼轉為補碼有1次，補碼轉為原碼1次（1.被減數轉為補碼 2.結果補碼轉為元原碼），相當於和直接使用反碼計算的結果一樣。

補碼的出現, 還解決了0的符號以及兩個編碼的問題:

1-1 = 1 + (-1) = [0000 0001]原 + [1000 0001]原 = [0000 0001]補 + [1111 1111]補 = [0000 0000]補=[0000 0000]原

這樣0用[0000 0000]表示, 而以前出現問題的-0則不存在了.而且可以用[1000 0000]表示-128。（但是注意因為實際上是使用以前的-0的補碼來表示-128, 所以-128並沒有原碼和反碼表示）

使用補碼, 不僅僅修復了0的符號以及存在兩個編碼的問題, 而且還能夠多表示乙個最低數。這就是為什麼8位二進位制, 使用原碼或反碼表示的範圍為[-127, +127], 而使用補碼表示的範圍為[-128, 127].

接下來，就要進入講解原理階段，也是最有乾貨的階段啦~~

我們使用問題驅動的學習方式，這裡的核心問題就是：為什麼使用補碼可以解決之前提到的兩個問題？（1.讓符號位也參與運算，簡化電路 2.加法和減法統一）

首先，就像上面所說，計算機為了電路的簡化，所以設計的電路只能處理加法，而且資料的儲存位數是有限的。（比如int為32位，超出就溢位直接截斷），所以，可以用時鐘作為模型來模仿，順時針走為加正數，逆時針走為加負數，符號位表示走的方向。

試想一下，乙個時鐘從格仔8要回到格仔4，怎麼辦？沒錯，順時針8個格仔和逆時針走4個格仔。所以順時針走8個格仔的效果是和逆時針走4個格仔的效果是一樣的。（假設只有分針），從5走到3呢？順時針10個格仔和逆時針2個格仔效果也是一樣的。看出規律了麼？4+8=12,10+2也等於12,12是什麼，時鐘格仔的總數。

假如m為12（即時鐘的總格仔數），則對應的「補碼」計算公式就是[x]補=m-|x|。很明顯，規律就是逆時針走x格仔和順時針走m-|x|格仔效果一樣！

以下根據時鐘來模擬我們的整數加法，這裡規定一旦走的格仔超過了一圈，就算為向符號位進製1：

1.正數加正數：

直接原碼加原碼。符號怎麼加都為0，即正數。比如8+4，格仔8順時針走4個格仔，結果走到格仔12。如果是溢位的情況，比如8+5，格仔8順時針走5格仔，走到1，因為超過了12，所以溢位，結果是錯誤的。

2.正數加負數：

結果為正數：

8+（-4），也就是說，時鐘從從格仔8逆時針走4個格仔，相當於8-4 = 4，但是由於時鐘只能順時針走，所以只能格仔8順時針走8個格仔，8+8=16，但是因為時鐘只有12個格仔，相當於溢位到符號位，所以數值位剩下4，符號位0+1+1 = 0，進製的1溢位截斷。所以結果數值位為4，符號位為0。

結果為負數：：

假如是8-9，即從格仔8逆時針走9格仔，只能往前走2格仔（加補碼），符號位為0+1，結果為11,注意11還是「補碼」，需要轉為「原碼」，根據[x]補=m-|x|算出補碼為1，因為符號位為1，所以結果是-1。

3.負數加負數：

假如是-1+（-1）：

轉化為0+（-1）+（-1）。首先0順時針走11格仔（-1的「補碼」），再順時針走11格仔（-1的「補碼」），此時走到格仔10，符號位為0+1+1 = 2，進製1直接溢位，為0。但是因為剛才已經超出了一圈，所以符號位要加1，所以為負數，轉化為原碼是-2。

以上模擬了通過補碼進行完整的乙個整數在計算機中的運算，還原到計算機計算，假如整形用乙個位元組表示，且只能使用加法，那麼整數的計算就是相當乙個只能順時針前進，並且時鐘刻度是從0到255的時鐘！通過這樣巧妙的轉化，使得符號位可以參與運算，並且將加減法統一起來了！。

好了，以上盡量用通俗的方式解釋了整數在計算機中的儲存和原理，如果要了解更理論的原理，請參考：原碼, 反碼, 補碼詳解

談談計算機中的整數

計算機中整數的加減運算

計算機中的定址

計算機中的單位

談談計算機中的整數

計算機中整數的加減運算

計算機中的定址

計算機中的單位

相關推薦