Unicode UTF 8 UTF 16 混淆概念

2021-07-02 00:27:31 字數 3534 閱讀 8301

為什麼需要unicode

我們知道計算機其實挺笨的,它只認識0101這樣的字串,當然了我們看這樣的01串時肯定會比較頭暈的,所以很多時候為了描述簡單都用十進位制,十六進製制,八進位制表示.實際上都是等價的,沒啥太多不一樣.其他啥文字之類的其他東東計算機不認識.那為了在計算機上表示這些資訊就必須轉換成一些數字.你肯定不能想怎麼轉換就怎麼轉,必須得有定些規則.於是剛開始的時候就有ascii字符集(american standard code for information interchange, 「美國資訊交換標準碼),它使用7 bits來表示乙個字元,總共表示128個字元,我們一般都是用位元組(byte,即8個01串)來作為基本單位.那麼怎麼當用乙個位元組來表示字元時第乙個bit總是0,剩下的七個位元組就來表示實際內容.後來ibm公司在此基礎上進行了擴充套件,用8bit來表示乙個字元,總共可以表示256個字元.也就是當第乙個bit是0時仍表示之前那些常用的字元.當為1時就表示其他補充的字元.

英文本母再加一些其他標點字元之類的也不會超過256個.乙個位元組表示主足夠了.但其他一些文字不止這麼多 ,像漢字就上萬個.於是又出現了其他各種字符集.這樣不同的字符集交換資料時就有問題了.可能你用某個數字表示字元a,但另外的字符集又是用另外乙個數字表示a.這樣互動起來就麻煩了.於是就出現了unicode和iso這樣的組織來統一制定乙個標準,任何乙個字元只對應乙個確定的數字.iso取的名字叫ucs(universal character set),unicode取的名字就叫unicode了.

總結起來為啥需要unicodey就是為了適應全球化的發展,便於不同語言之間的相容互動,而ascii不再能勝任此任務了.

unicode詳細介紹

1.容易產生後歧義的兩位元組

unicode的第乙個版本是用兩個位元組(16bit)來表示所有字元

實際上這麼說容易讓人產生歧義,我們總覺得兩個位元組就代表儲存在計算機中時是兩個位元組.於是任何字元如果用unicode表示的話儲存下來都佔兩個位元組.其實這種說法是錯誤的.

其實unicode涉及到兩個步驟,首先是定義乙個規範,給所有的字元指定乙個唯一對應的數字,這完全是數學問題,可以跟計算機沒半毛錢關係.第二步才是怎麼把字元對應的數字儲存在計算機中,這才涉及到實際在計算機中佔多少位元組空間.

所以我們也可以這樣理解,unicode是用0至65535之間的數字來表示所有字元.其中0至127這128個數字表示的字元仍然跟ascii完全一樣.65536是2的16次方.這是第一步.第二步就是怎麼把0至65535這些數字轉化成01串儲存到計算機中.這肯定就有不同的儲存方式了.於是出現了utf(unicode transformation format),有utf-8,utf-16.

2.utf-8 與utf-16的區別

utf-16比較好理解,就是任何字元對應的數字都用兩個位元組來儲存.我們通常對unicode的誤解就是把unicode與utf-16等同了.但是很顯然如果都是英文本母這做有點浪費.明明用乙個位元組能表示乙個字元為啥整兩個啊.

於是又有個utf-8,這裡的8非常容易誤導人,8不是指乙個位元組,難道乙個位元組表示乙個字元?實際上不是.當用utf-8時表示乙個字元是可變的,有可能是用乙個位元組表示乙個字元,也可能是兩個,三個.當然最多不能超過3個位元組了.反正是根據字元對應的數字大小來確定.

於是utf-8和utf-16的優劣很容易就看出來了.如果全部英文或英文與其他文字混合,但英文佔絕大部分,用utf-8就比utf-16節省了很多空間.而如果全部是中文這樣類似的字元或者混合字元中中文佔絕大多數.utf-16就佔優勢了,可以節省很多空間.另外還有個容錯問題,等會再講

看的有點暈了吧,舉個例子.假如中文字」漢」對應的unicode是6c49(這是用十六進製制表示,用十進位制表示是27721為啥不用十進位制表示呢?很明顯用十六進製制表示要短點.其實都是等價的沒啥不一樣.就跟你說60分鐘和1小時一樣.).你可能會問當用程式開啟乙個檔案時我們怎麼知道那是用的utf-8還是utf-16啊.自然會有點啥標誌,在檔案的開頭幾個位元組就是標誌.

ef bb bf 表示utf-8

fe ff 表示utf-16.

用utf-16表示」漢」

假如用utf-16表示的話就是01101100 01001001(共16 bit,兩個位元組).程式解析的時候知道是utf-16就把兩個位元組當成乙個單元來解析.這個很簡單.

用utf-8表示」漢」

用utf-8就有複雜點.因為此時程式是把乙個位元組乙個位元組的來讀取,然後再根據位元組中開頭的bit標誌來識別是該把1個還是兩個或三個位元組做為乙個單元來處理.

0******x,如果是這樣的01串,也就是以0開頭後面是啥就不用管了xx代表任意bit.就表示把乙個位元組做為乙個單元.就跟ascii完全一樣.

110***xx 10******.如果是這樣的格式,則把兩個位元組當乙個單元

1110***x 10****** 10****** 如果是這種格式則是三個位元組當乙個單元.

這是約定的規則.你用utf-8來表示時必須遵守這樣的規則.我們知道utf-16不需要用啥字元來做標誌,所以兩位元組也就是2的16次能表示65536個字元.

而utf-8由於裡面有額外的標誌資訊,所有乙個位元組只能表示2的7次方128個字元,兩個位元組只能表示2的11次方2048個字元.而三個位元組能表示2的16次方,65536個字元.

由於」漢」的編碼27721大於2048了所有兩個位元組還不夠,只能用三個位元組來表示.

所有要用1110***x 10****** 10******這種格式.把27721對應的二進位制從左到右填充***符號(實際上不一定從左到右,也可以從右到左,這是涉及到另外乙個問題.等會說.

剛說到填充方式可以不一樣,於是就出現了big-endian,little-endian的術語.big-endian就是從左到右,little-endian是從右到左.

由上面我們可以看出utf-8需要判斷每個位元組中的開頭標誌資訊,所以如果一當某個位元組在傳送過程中出錯了,就會導致後面的位元組也會解析出錯.而utf-16不會判斷開頭標誌,即使錯也只會錯乙個字元,所以容錯能力強.

unicode版本2

前面說的都是unicode的第乙個版本.但65536顯然不算太多的數字,用它來表示常用的字元是沒一點問題.足夠了,但如果加上很多特殊的就也不夠了.於是從2023年開始又來了第二個版本.用四個位元組表示所有字元.這樣就出現了utf-8,utf16,utf-32.原理和之前肯定是完全一樣的,utf-32就是把所有的字元都用32bit也就是4個位元組來表示.然後utf-8,utf-16就視情況而定了.utf-8可以選擇1至8個位元組中的任乙個來表示.而utf-16只能是選兩位元組或四位元組..由於unicode版本2的原理完全是一樣的,就不多說了.

前面說了要知道具體是哪種編碼方式,需要判斷文字開頭的標誌,下面是所有編碼對應的開頭標誌

ef bb bf    utf-8

fe ff     utf-16/ucs-2, little endian

ff fe     utf-16/ucs-2, big endian

ff fe 00 00  utf-32/ucs-4, little endian.

00 00 fe ff  utf-32/ucs-4, big-endian.

其中的ucs就是前面說的iso制定的標準,和unicode是完全一樣的,只不過名字不一樣.ucs-2對應utf-16,ucs-4對應utf-32.utf-8是沒有對應的ucs

編碼(1) unicode,utf 8和其他編碼

1.字符集 ascii字符集,最初的字符集,對應了ansi檔案編碼,乙個字元用乙個位元組表示,嚴格來說這個時候字符集和文字檔案的編碼並沒有必要作為單獨的概念加以區分 從此也可以看出,原來是沒有中間的字符集的抽象的。字符集就是編碼方式,編碼解碼直接對著字符集的對映表即可。二者是乙個概念。西歐字符集 日...

Nim 處理Unicode UTF 8編碼

unicode 模組提供支援處理unicode utf 8編碼。type runeimpl int rune distinct runeimpl 可以容納任何 unicode 字元 型別。rune16 distinct int16 16位 unicode 字元 proc runelen s stri...

utf 8 UTF 8 utf8 在使用中的區別

utf 8 是標準寫法,php在windows下邊英文不區分大小寫,所以也可以寫成 utf 8 utf 8 也可以把中間的 省略,寫成 utf8 一般程式都能識別,但也有例外 如下文 為了嚴格一點,最好用標準的大寫 utf 8 在資料庫中只能使用 utf8 mysql 在mysql的命令模式中只能使...