重學計算機組成原理(十) 燙燙燙 亂碼的由來

2022-07-04 10:42:12 字數 4074 閱讀 2187

程式 = 演算法 + 資料結構

對應到計算機的組成原理(硬體層面)

計算機用0/1組成的二進位制,來表示所有資訊

萬物在計算機裡都是0和1,搞清楚各種資料在二進位制層面是怎麼表示的,是我們的必修課。

在實際應用中最常遇到的問題,也就是文字字串是怎麼表示成二進位制的,特別是我們會遇到的亂碼究竟是怎麼回事兒

在開發的時候,所說的unicode和utf-8之間有什麼關係。

理解了這些,相信以後遇到任何亂碼問題,你都能手到擒來了。

二進位制和我們平時用的十進位制,並沒有本質區別,只是平時是「逢十進一」,這裡變成了「逢二進一」

每一位,相比於十進位制下的0~9這十個數字,我們只能用0和1這兩個數字。

任何乙個十進位制的整數,都能通過二進位制表示出來

把乙個二進位制數,對應到十進位制,非常簡單,就是把從右到左的第n位,乘上乙個2的n次方,然後加起來,就變成了乙個十進位制數

當然,既然二進位制是乙個面向程式設計師的「語言」,這個從右到左的位置,自然是從0開始的。

比如_0011_這個二進位制數,對應的十進位制表示,就是

\(0×2^3+0×2^2+1×2^1+1×2^0\)

\(=3\)

代表十進位制的3

對應地,如果我們想要把乙個十進位制的數,轉化成二進位制,使用短除法就可以了

也就是,把十進位制數除以2的餘數,作為最右邊的一位。然後用商繼續除以2,把對應的餘數緊靠著剛才餘數的右側,這樣遞迴迭代,直到商為0就可以了。

剛才我們舉的例子都是正數,對於負數來說,情況也是一樣的嗎?

我們可以把乙個數最左側的一位,當成是對應的正負號,比如0為正數,1為負數,這樣來進行標記。

這樣,乙個4位的二進位制數, 0011就表示為+3。而1011最左側的第一位是1,所以它就表示-3。這個其實就是整數的原碼表示法

原碼表示法有乙個很直觀的缺點就是,0可以用兩個不同的編碼來表示,1000代表0, 0000也代表0。習慣萬事一一對應的程式設計師看到這種情況,必然會被「逼死」。

於是,我們就有了另一種表示方法。我們仍然通過最左側第一位的0和1,來判斷這個數的正負。但是,我們不再把這一位當成單獨的符號位,在剩下幾位計算出的十進位制前加上正負號,而是在計算整個二進位制值的時候,在左側最高位前面加個負號。

比如,乙個4位的二進位制補碼數值1011,轉換成十進位制,就是

\(-1×2^3+0×2^2+1×2^1+1×2^0\)

\(=-5\)

如果最高位是1,這個數必然是負數;最高位是0,必然是正數。並且,只有0000表示0,1000在這樣的情況下表示-8。乙個4位的二進位制數,可以表示從-8到7這16個整數,不會白白浪費一位。

當然更重要的一點是,用補碼來表示負數,使得我們的整數相加變得很容易,不需要做任何特殊處理,只是把它當成普通的二進位制相加,就能得到正確的結果。

我們簡單一點,拿乙個4位的整數來算一下,比如 -5 + 4 = -1,-5 + 6 = 1

我們各自把它們轉換成二進位制來看一看。如果它們和無符號的二進位制整數的加法用的是同樣的計算方式,這也就意味著它們是同樣的電路。

不僅數值可以用二進位制表示,字元乃至更多的資訊都能用二進位制表示

最典型的例子就是字串(character string)

最早計算機只需要使用英文本元,加上數字和一些特殊符號,然後用8位的二進位制,就能表示我們日常需要的所有字元了,這個就是我們常常說的ascii碼(american standard code for information interchange,美國資訊交換標準**)

ascii碼就好比乙個字典,用8位二進位制中的128個不同的數,對映到128個不同的字元裡

比如,小寫字母a在ascii裡面,就是第97個,也就是二進位制的0110 0001,對應的十六進製制表示就是 61。而大寫字母 a,就是第65個,也就是二進位制的0100 0001,對應的十六進製制表示就是41。

在ascii碼裡面,數字9不再像整數表示法裡一樣,用0000 1001來表示,而是用0011 1001 來表示。字串15也不是用0000 1111 這8位來表示,而是變成兩個字元1和5連續放在一起,也就是 0011 0001 和 0011 0101,需要用兩個8位來表示。

我們可以看到,最大的32位整數,就是2147483647。如果用整數表示法,只需要32位就能表示了。但是如果用字串來表示,一共有10個字元,每個字元用8位的話,需要整整80位。比起整數表示法,要多佔很多空間。

這也是為什麼,很多時候我們在儲存資料的時候,要採用二進位制序列化這樣的方式,而不是簡單地把資料通過csv或者json,這樣的文字格式儲存來進行序列化。不管是整數也好,浮點數也好,採用二進位制序列化會比儲存文字省下不少空間。

ascii碼只表示了128個字元,一開始倒也堪用,畢竟計算機是在美國發明的

然而隨著越來越多的不同國家的人都用上了計算機,想要表示譬如中文這樣的文字,128個字元顯然是不太夠用的。於是,計算機工程師們開始各顯神通,給自己國家的語言建立了對應的字符集(charset)和字元編碼(character encoding)

表示的可以是字元的乙個集合

比如「中文」就是乙個字符集,不過這樣描述乙個字符集並不準確

想要更精確一點,我們可以說,「第一版《新華字典》裡面出現的所有漢字」,這是乙個字符集。這樣,我們才能明確知道,乙個字元在不在這個集合裡面

比如,我們日常說的unicode,其實就是乙個字符集,包含了150種語言的14萬個不同的字元。

則是對於字符集裡的這些字元,怎麼一一用二進位制表示出來的乙個字典

我們上面說的unicode,就可以用utf-8、utf-16,乃至utf-32來進行編碼,儲存成二進位制。所以,有了unicode,其實我們可以用不止utf-8一種編碼形式,我們也可以自己發明一套 gt-32 編碼,比如就叫作geek time 32好了。只要別人知道這套編碼規則,就可以正常傳輸、顯示這段**。

同樣的文字,採用不同的編碼儲存下來。如果另外乙個程式,用一種不同的編碼方式來進行解碼和展示,就會出現亂碼。這就好像兩個軍隊用密語通訊,如果用錯了密碼本,那看到的訊息就會不知所云。在中文世界裡,最典型的就是「手持兩把錕斤拷,口中疾呼燙燙燙」的典故。

沒有經驗的同學,在看到程式輸出「燙燙燙」的時候,以為是程式讓cpu過熱發出報警,於是嘗試給cpu降頻來解決問題。

既然今天要徹底搞清楚編碼知識,我們就來弄清楚「錕斤拷」和「燙燙燙」的來龍去脈。

如果我們想要用unicode編碼記錄一些文字,特別是一些遺留的老字符集內的文字,但是這些字元在unicode中可能並不存在。於是,unicode會統一把這些字元記錄為u+fffd這個編碼

如果用utf-8的格式儲存下來,就是\xef\xbf\xbd。如果連續兩個這樣的字元放在一起,\xef\xbf\xbd\xef\xbf\xbd,這個時候,如果程式把這個字元,用gb2312的方式進行decode,就會變成「錕斤拷」。這就好比我們用gb2312這本密碼本,去解密別人用utf-8加密的資訊,自然沒辦法讀出有用的資訊。

而「燙燙燙」,則是因為如果你用了visual studio的偵錯程式,預設使用mbcs字符集

「燙」在裡面是由0xcccc來表示的,而0xcc又恰好是未初始化的記憶體的賦值。於是,在讀到沒有賦值的記憶體位址或者變數的時候,電腦就開始大叫「燙燙燙」了。

不過,光是明白怎麼把數值和字元在邏輯層面用二進位制表示是不夠的。我們在計算機組成裡面,關心的不只是數值和字元的邏輯表示,更要弄明白,在硬體層面,這些數值和我們一直提的電晶體和電路有什麼關係。下一講,我就會為你揭開神秘的面紗。我會從時鐘和d觸發器講起,最終讓你明白,計算機裡的加法,是如何通過電路來實現的。

計算機組成原理cu 計算機組成原理 計算機概論

現代計算機樣式千奇百怪,常見的有我們的筆記本,台式電腦,也有各種伺服器 手機 攝像頭等都屬於計算機範疇。計算機包含我們看得見摸得著的計算機實體,稱為計算機硬體,如cpu 記憶體 各種掛接裝置等 還有我們看不見摸不著的軟體,它支援著硬體按照我們的預想在操作,包括系統軟體和應用軟體 計算機硬體樣式千奇百...

計算機組成原理

1計算機系統概論 1.1 計算機簡介 計算機由 硬體 和 軟體 組成。硬體 是看得見摸得著的各種電子元器件,各類光,電,機裝置的實物組成,如主機,外設等等。軟體 是看不見摸不著,由人們事先編製成具有各類特殊功能的資訊組成。計算機的三層結構 高階語言 組合語言 機器語言 微指令系統。計算機組成與計算機...

計算機組成原理

1.加法器是如何計算不同型別變數的加法的 分析 加法器的功能就是計算而已,其有兩個輸入端,當兩個輸入端都有資料時,其就進行計算並將結果輸出。輸入到加法器的兩端的資料格式是統一的 可能都是有符號的補碼形式 這就是說,各種型別的變數相加,這些變數在進入加法器輸入端之前,程式都會根據其型別將其轉換為輸入端...