UTF 8 ASCII Unicode編碼區別

我們都知道，在計算機的世界裡，資訊的表示方式只有 0 和 1,但是我們人類資訊表示的方式卻與之大不相同，很多時候是用語言文字、影象、聲音等傳遞資訊的。

我們知道乙個二進位制有兩種狀態：」0」狀態和「1」狀態。

我們知道，在計算機中每八個二進位制位組成了乙個位元組（byte），計算機儲存的最小單位就是位元組。

所以早期人們用 8 位二進位制來編碼英文本母(最前面的一位是 0)，也就是說，將英文本母和一些常用的字元和這 128 中二進位制 0、1 串一一對應起來，比如說大寫字母「a」所對應的二進位制位「01000001」，轉換為十六進製制為 41。

在美國，這 128 是夠了，但是其他國家不答應啊，他們的字元和英文是有出入的。

所以各個國家就決定把位元組中最前面未使用的那乙個位拿來使用，原來的 128 種狀態就變成了 256 種狀態。

為了保持與 ascii 碼的相容性，一般最高為為 0 時和原來的 ascii 碼相同，最高位為 1 的時候，各個國家自己給後面的位 (1*** ***x) 賦予他們國家的字元意義。

但是這樣一來又有問題出現了，不同國家對新增的 128 個數字賦予了不同的含義

所以這就成了不同國家有不同國家的編碼方式，所以如果給你一串二進位制數，你想要解碼，就必須知道它的編碼方式，不然就會出現我們有時候看到的亂碼。

unicode 為世界上所有字元都分配了乙個唯一的數字編號，這個編號範圍從 0x000000 到 0x10ffff (十六進製制)，有 110 多萬，每個字元都有乙個唯一的 unicode 編號，這個編號一般寫成 16 進製，在前面加上 u+。例如：「馬」的 unicode 是u+9a6c。

unicode 就相當於一張表，建立了字元與編號之間的聯絡

它是一種規定，unicode 本身只規定了每個字元的數字編號是多少，並沒有規定這個編號如何儲存。

有的人會說了，那我可以直接把 unicode 編號直接轉換成二進位制進行儲存，是的，你可以，但是這個就需要人為的規定了，而 unicode 並沒有說這樣弄，因為除了你這種直接轉換成二進位制的方案外，還有其他方案，接下來我們會逐一看到。

編號怎麼對應到二進位制表示呢？有多種方案：主要有 utf-8，utf-16，utf-32。

utf-8 就是使用變長位元組表示，顧名思義，就是使用的位元組數可變，這個變化是根據 unicode 編號的大小有關，編號小的使用的位元組就少，編號大的使用的位元組就多。使用的位元組個數從 1 到 4 個不等。

utf-8 的編碼規則是：

① 對於單位元組的符號，位元組的第一位設為 0，後面的7位為這個符號的 unicode 碼，因此對於英文本母，utf-8 編碼和 ascii 碼是相同的。

② 對於n位元組的符號（n>1）,第乙個位元組的前 n 位都設為 1，第 n+1 位設為 0，後面位元組的前兩位一律設為 10，剩下的沒有提及的二進位制位，全部為這個符號的 unicode 碼。