關於計算機編碼的筆記

寫的實在太好了，以上總結就是 ascii => gb2312 => gbk => unicode。

unicode跟utf-8、utf -16、utf-32有什麼關係呢？

unicode 是「字符集」

utf-8

是「編碼規則」

字符集：為每乙個「字元」分配乙個唯一的 id（學名為碼位 / 碼點 /code point）

編碼規則：將「碼位」轉換為位元組序列的規則（編碼/解碼可以理解為加密/解密的過程）

unicode，gbk和大五碼就是編碼的值，而utf-8,uft-16之類就是這個值的表現形式。

utf的推出也是為了解決unicode在不同機器之中的傳輸差異問題、以及記憶體浪費的問題，比如2個8bit傳輸乙個英文本母，那麼高位位元組就全是0000而浪費了一倍的記憶體。

所以utf-8代表的unicode碼，對於ascii就能表示的字元，記憶體是浪費的，因為有個位元組是空的。utf比gbk是更加浪費記憶體的。

utf8\

16\32是unicode的三套編碼方式，utf-8之中字元是以8位序列來編碼的，16、32同理。考慮到最初的目的，通常說的unicode編碼指的是utf-16

（unicode的最初目標是用1個16位的編碼來為超過65000個字元提供對映，但仍然不能覆蓋歷史上所有文字以及不能解決傳輸上的問題）。

為什麼所有**更鍾情於utf-8呢？

utf-8

的幾個優勢

1. 亂碼不會擴散, gb2312 在丟失一位元組等情況下會造成後續所有文字變成亂碼2. 不會產生錯誤的搜尋結果, gb2312 在搜尋的時候相鄰兩個中文會拼出乙個新的字元，導致出現錯誤的搜尋結果3. 更大的字符集4. 很多語言直接支援 utf-8，部分語言儲存字串到記憶體時直接使用 utf-8編碼。5. 與 gb2312/gb18030 相比, utf-8是乙個通用解決方案6. unicode 一直有人維護，而 gb18030 下一次更新不知道會是什麼時候了。

另對於中文, utf-8

和 gb2312 在 gzip 壓縮後都差不多，所以用來做網頁對頻寬影響很小

建立資料庫的時候眾多字元編碼、排序規則又該如何選擇呢、

sublime的常用設定

蔣本珊 -《計算機組成原理》

關於計算機編碼的筆記

關於計算機編碼的故事

計算機編碼編碼

計算機編碼

關於計算機編碼的筆記

關於計算機編碼的故事

計算機編碼 編碼

計算機編碼

相關推薦

計算機編碼編碼