UTF 8學習筆記貼

雖然從事多年程式設計，之前一直在國外專案，近一年接收國內專案，對中文的支援成為必要的需求，之前遇到亂碼的問題，都是網上找解決方案，沒有從根本上理解這個事情，抽出時間理解一下相關底層的處理邏輯，相關知識點在此處記錄。

utf-8（8 位元，universal character set/unicode transformation format）是針對 unicode 的一種可變長度字元編碼。它可以用來表示 unicode 標準中的任何字元，而且其編碼中的第乙個位元組仍與 ascii 相容，使得原來處理 ascii 字元的軟體無須或只進行少部份修改後，便可繼續使用。因此，它逐漸成為電子郵件、網頁及其他儲存或傳送文字的應用中，優先採用的編碼。

摘要自維基百科：

utf-8（8-bit unicode transformation format）是一種針對 unicode 的可變長度字元編碼，也是一種字首碼。它可以用一至四個位元組對 unicode 字符集中的所有有效編碼點進行編碼，屬於 unicode 標準的一部分，最初由肯·湯普遜和羅布·派克提出。由於較小值的編碼點一般使用頻率較高，直接使用 unicode 編碼效率低下，大量浪費記憶體空間。utf-8 就是為了解決向後相容 ascii 碼而設計，unicode 中前 128 個字元，使用與 ascii 碼相同的二進位制值的單個位元組進行編碼，而且字面與 ascii 碼的字面一一對應，這使得原來處理 ascii 字元的軟體無須或只須做少部分修改，即可繼續使用。因此，它逐漸成為電子郵件、網頁及其他儲存或傳送文字優先採用的編碼方式。

劃重點：

引出問題：

ucs 字元 u+0000 到 u+007f（ascii）被編碼為位元組 0×00 到 0x7f（asciⅱ 相容）。這意味著只包含 7 位 ascil 字元的檔案在 asciⅱ 和 utf-8 兩種編碼方式下是一樣的。

所有大於 0x007f 的 ucs 字元被編碼為乙個有多個位元組的串，每個位元組都有標記位集。因此，ascil 位元組（0x00-0x7f）不可能作為任何其他字元的一部分。表示非 ascil 字元的多位元組串的第乙個位元組總是在 0xc0 到 0xfd 的範圍裡，並指出這個字元包含多少個位元組。多位元組串的其餘位元組都在 0x80 到 0xbf 範圍裡。這使得重新同步非常容易，並使編碼無國界，且很少受丟失位元組的影響。

utf-8 編碼字元理論上可以最多到 6 個位元組長，然而 16 位 bmp 字元最多只用到 3 位元組長，bigendian ucs-4 位元組串的排列順序是預定的，位元組 0xfe 和 oxff 在 utf-8 編碼中從未用到

摘要自維基百科：

utf-8 使用一至六個位元組為每個字元編碼（儘管如此，2003 年 11 月 utf-8 被 rfc 3629 重新規範，只能使用原來 unicode 定義的區域，u+0000 到 u+10ffff，也就是說最多四個位元組）：

128 個 us-ascii 字元只需乙個位元組編碼（unicode 範圍由 u+0000 至 u+007f）。

帶有附加符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要兩個位元組編碼（unicode 範圍由 u+0080 至 u+07ff）。

其他基本多文種平面（bmp）中的字元（這包含了大部分常用字，如大部分的漢字）使用三個位元組編碼（unicode 範圍由 u+0800 至 u+ffff）。

其他極少使用的 unicode 輔助平面的字元使用四至六位元組編碼（unicode 範圍由 u+10000 至 u+1fffff 使用四位元組，unicode 範圍由 u+200000 至 u+3ffffff 使用五位元組，unicode 範圍由 u+4000000 至 u+7fffffff 使用六位元組）。

對上述提及的第四種字元而言，utf-8 使用四至六個位元組來編碼似乎太耗費資源了。但 utf-8 對所有常用的字元都可以用三個位元組表示，而且它的另一種選擇，utf-16 編碼，對前述的第四種字元同樣需要四個位元組來編碼，所以要決定 utf-8 或 utf-16 哪種編碼比較有效率，還要視所使用的字元的分布範圍而定。不過，如果使用一些傳統的壓縮系統，比如 deflate，則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮演算法在壓縮較短文本上的效果不大，可以考慮使用 unicode 標準壓縮格式（scsu）。

劃重點：

0b0zzzzzzz 表示由1個位元組組成的字元，剩餘7位使用者表示字元值（即單位元組ascii碼） 0b110yyyyy 表示由2個位元組組成的字元，剩餘6位使用者表示字元值 0b1110***x 表示由3個位元組組成的字元，剩餘5位使用者表示字元值

0b11110www 表示由4個位元組組成的字元，剩餘4位使用者表示字元值

首位元組

首位元組值區間

位元組數0b0zzzzzzz0x00~0x7f < 0x8f1

0b110yyyyy0x8f~0xdf < 0xe02

0b1110***x0xe0~0xef < 0xf03

0b11110www0xf0~0xf7 < 0xf84

位元組數位元組 1

位元組 2

位元組 3

位元組 4

有效字元值位數

字元值字元值區間

10b0zzzzzzz---

7 = 70bzzzzzzz0x00~0x7f < 0x8f

20b110yyyyy0b10zzzzzz-

-5 + 6 = 110byyyyyzzzzzz0x8f~0x7ff < 0x800

30b1110***x0b10yyyyyy0b10zzzzzz-

4 + 6 + 6 = 160b***xyyyyyyzzzzzz0x800~0xffff < 0x10000

40b11110www0b10******0b10yyyyyy0b10zzzzzz3 + 6 + 6 + 6 = 210bwww******yyyyyyzzzzzz0x10000~0x1fffff < 0x200000

UTF 8學習筆記貼

網頁utf 8亂碼 utf8亂碼

utf 8 和 utf8的區別小記

utf8 和 UTF 8 有什麼區別

UTF 8學習筆記貼

網頁utf 8亂碼 utf8亂碼

utf 8 和 utf8的區別小記

utf8 和 UTF 8 有什麼區別

相關推薦