編碼問題的思考

編碼問題起源：

計算機只認0與1，要使計算機可以表示人類認識的符號標誌，就要使用編碼來表示了。最初計算機是美國人發明的，他們為了表示英文本母和一些標點，就發明了ascii碼。然後計算機到了歐洲，ascii碼無法滿足歐洲人的需求就有了擴充套件的ascii碼。後來計算機到了中國，中國人發現自己的文字在計算機上無法顯示，就發明了gb2312編碼。最後就發展到不同的國家就有不同的實現。

下面介紹幾個重要的編碼：

1.ascii

用乙個位元組（如0000 0000）即兩個十六進製制數（如ff）表示，可表示256個狀態，但只取其中的128個有用字元（該位元組的最高位沒有用到，為0）。

2.可擴充套件的ascii編碼。

主要是歐洲國家使用，使用了ascii碼的高位表示更多的符號，有多個不同的擴充套件。主要的是iso8859-1編碼（拉丁語系）。

3.gb2312->gbk->gb13000

ascii碼無法表示中文。中國人就使用gb碼表示，gb2312，gbk，gb13000就是其中的各個標準。最主要的不同就是收錄的漢字多少不同，但是編碼是相容的。

4.big5

正體中文的編碼，主要是用於台灣和香港。

5.unicode

unicode只是乙個符號集，它只規定了符號的二進位制**，卻沒有規定這個二進位制**應該如何儲存。內容包含符號6811個，unicode於2023年6月通過dis（draf international standard），目前版本v2.0於1996公布，漢字20902個，韓文拼音11172個，造字區6400個，保留20249個，共計65534個。unicode編碼後的大小是一樣的.例如乙個英文本母"a" 和　乙個漢字"好"，編碼後都是占用的空間大小是一樣的，都是兩個位元組。

5.utf-8

utf-8是unicode的實現方式之一。

因為對於英文本母，unicode也需要兩個位元組來表示。所以unicode不便於傳輸和儲存。因此而產生了utf編碼，utf編碼相容iso8859-1編碼，同時也可以用來表示所有語言的字元，不過，utf編碼是不定長編碼，每乙個字元的長度從1-6個位元組不等。另外，utf編碼自帶簡單的校驗功能。一般來講，英文本母都是用乙個位元組表示，而漢字使用三個位元組。

注意，雖然說utf是為了使用更少的空間而使用的，但那只是相對於unicode編碼來說，如果已經知道是漢字，則使用gb2312/gbk無疑是最節省的。不過另一方面，值得說明的是，雖然utf編碼對漢字使用3個位元組，但即使對於漢字網頁，utf編碼也會比unicode編碼節省，因為網頁中包含了很多的英文本元。

感受：總覺得有很多關於編碼的細節沒寫，不過想了下，具體細節google一下就可以找到了，就寫了下感受較深的東西吧。另外，在我們的應用程式中，我覺得我們能用utf8就盡量使用utf8的編碼。也算是為標準化做下貢獻吧。

編碼問題的思考

編碼規範的幾點思考

編碼規範那些思考

軟體編碼與哲學思考

編碼問題的思考

編碼規範的幾點思考

編碼規範那些思考

軟體編碼與哲學思考

相關推薦