utf 8和Unicode的區別

utf-8和unicode到底有什麼區別？是儲存方式不同？編碼方式不同？它們看起來似乎很相似，但是實際上他們並不是同乙個層次的概念

要想先講清楚他們的區別，首先應該講講unicode的來由。

中國人不高興了，特麼我們漢字有幾萬個，常用的就有幾千個，沒有兩個位元組根本交不了貨。於是勤勞勇敢的中國人民就破天荒的用了兩個位元組來表示中文。整出一套gbk。為了現實我中華民族相容幷蓄，我們相容了ascii編碼。

於是天下就很亂了，歐洲人看不懂我們發過去的資訊，我們也看不懂他們的東西，美國人看不懂我的東西，不過我們能看懂他們的資訊。。。哈哈。

總之，天下大亂，群雄並起，百姓生靈塗........

這個時候，就有個國際組織站出來了，說，這麼著吧，我來擼一套編碼，把大家的編碼都歸納進來。於是unicode編碼就出現了。這套編碼表的編號從0一直算到了100多萬（三個位元組）。每乙個區間都對應著一種語言的編碼。目前幾乎收納了全世界大部分的字元。所有的字元都有唯一的編號，這就解決了解碼的衝突，於是天下大定！但是，unicode把大家都歸納進來，卻沒有為編碼的二進位制傳輸和二進位制解碼做出規定。只留下一句：大哥只能幫你到這裡了。

我知道你一定在想，要個毛的規定啊，每次讓計算機讀取三個位元組然後參照unicode表解碼就好了。想法是好的，但是如果類似於1號編碼這樣的小資料編號也要三個位元組的話，那麼也就是0x000001,這簡直就是浪費啊，明明乙個位元組就可以表示了，你非得整三個，所以你到底是幾個意思呢？

不管怎麼樣，大哥雖然走了，但是問題還得解決啊，於是，就出現了如下解決方案：uft-8，utf-16，utf-32這些編碼方案。utf-16是用兩個位元組來編碼所有的字元，utf-32則選擇用4個位元組來編碼。下面只講一下utf-8這種解決方案，因為它用的最多，用得最多是因為在當時它的方案最好，最節省資源。

utf-8為了節省資源，採用變長編碼，編碼長度從1個位元組到6個位元組不等

ok，關於unicode和utf-8的區別已經解釋完畢了。下面用乙個圖來鞏固一下那些區別

unicode與uft-8的結構關係.png

注：此文非原創，只是對於自己有幫助，記錄於此

utf 8和Unicode的區別

Unicode和utf 8的區別

轉 Unicode 和 UTF 8 的區別

Unicode和UTF 8有和區別

utf 8和Unicode的區別

Unicode和utf 8的區別

轉 Unicode 和 UTF 8 的區別

Unicode和UTF 8有和區別

相關推薦