關於字元編碼的問題。

2022-05-17 06:47:20 字數 521 閱讀 4381

字串它是乙個資料型別,除此之外,它還是乙個編碼的問題。

因為計算機它只能處理數字,要想處理文字,就必須得把文字轉換成數字,這樣計算機才可以正常處理。

大家都知道ascii碼,這個是外國人發明的,所以最早只有127的個字元被編碼,如數字、字母以及一些特殊符號啥的。如果要處理中文,乙個位元組肯定是不夠的,至少得要兩個,有一些甚至要4個位元組。 而且還不能和ascii碼衝突,所以中國人也製作了個編碼叫gb2312。 但是,,,,,全國有那麼多種的語言,如果每個國家都自己的編碼的話,那如果一遍文章裡面包含了各國語言,這樣豈不就崩潰了嗎? 這也就是有一些同學看見各種亂碼的直接原因。所以,為了統一,unicode也就出來了。亂碼也就不會出現了。

但是,,,  比如講 ascii編碼乙個a,它的十進位制是65,二進位制是01000001,

如果用unicode,它的二進位制就是00000000 01000001,雖然結果都是一樣的,

但是明顯後者占得記憶體要大得多,多一倍不必要的儲存空間。  

所以。。。。。  為了減除這個缺點,utf-8編碼就出來了。

關於字元編碼的問題

寫程式的人基本上都會遇到亂碼的問題,之前自己對字符集 編碼等問題也是一知半解,大概明白什麼意思,但卻說不清楚。由於公司需要做多語言,於是研究了一下,終於把字符集和編碼等問題弄明白了。ascii gb2312 gbk unicode utf 8 utf 16 ucs2 ucs4.對於很多人來說這些東西...

關於字元編碼的問題

這幾天一直在改 前輩 流下來的乙個程式,其中讓我很無語的是 他的字元編碼居然全在servlet 中進行轉碼的,就是這樣 string submit new string request.getparameter submit1 getbytes iso 8859 1 gbk 居然寫成這樣了 讓我來擴...

關於字元編碼的問題

在乙個activity裡面有乙個文字輸入框,我在後台通過 edittext et username edittext findviewbyid r.id.username string username new string et username.gettext tostring 這樣拿到的字串不...