字符集及編碼

字符集(charset)編碼不同，資料的儲存空間大小也不同，選擇不當還會出現亂碼等，特別是資料互動的地方，傳送與接收應該保持編碼一致。

ascii碼是最早最基礎的編碼，採用7位(bit)表示乙個字元，一共可表示2的7次方=128種字元，後來有了latin1(iso-8859-1)對ascii進行了擴充，使用8位(bit)也就是乙個位元組表示乙個字元，可表示2的8次方=256種字元，相比ascii可以表示更多的特殊字元，但對於一些區域，如中文這樣字元遠遠不夠，為了解決這種問題，unicode編碼出現了，旨在能表示所有區域的字元，針對特定的區域還有針對性的編碼，如中文的gb2312等。

unicode編碼使用兩個位元組表示乙個字元，可表示2的16次方=65536個字元，當乙份文件中的字元大多是英文或純英文時，使用unicode就顯得有點浪費空間。而utf-8編碼可以解決此類問題，它遇到英文時使用同ascii編碼，但遇到如中文字元時，乙個字元用3個位元組來表示。而gb2312遇到中文用2個位元組來表示。

.net中的位於system.text下的encoding類是各種編碼的核心類，提供了位元組陣列與字元之間的轉換，及各種編碼間的轉換，encoding類定義如下：

public

abstract

class

encoding : icloneable

encoding類的派生類有asciiencoding，unicodeencoding，utf8encoding類等，提供不同特定編碼的覆寫。

下面以字元「message,資訊」(英文，半形逗號，中文)為例，來看看各編碼的表示

string

result =""

;strings =

"message,資訊";

byte

b =encoding.utf8.getbytes(s);

//byte b = encoding.unicode.getbytes(s);

//byte b = encoding.getencoding("gb2312").getbytes(s);

foreach

(byte

i inb)

result的值為「109,101,115,115,97,103,101,44,228,191,161,230,129,175」me

ssag

e,資訊

utf-8

109101

115115

97103

10144

228,191,161

230,129,175

unicode

109,0

101,0

115,0

97,0

103,0

101,0

44,0

225,79

111,96

gb2312

109101

115115

97103

10144

208,197

207,162

從位元組陣列到字元的轉換

byte

b =newbyte

;strings =

encoding.utf8.getstring(b);

s的值為「message,資訊」。位元組陣列是utf-8的編碼，如果採用gb2312來getstring，則得到的中文字元會是亂碼：message,淇℃伅

字符集及編碼

字符集編碼

字符集編碼

字符集編碼

字符集及編碼

字符集 編碼

字符集編碼

字符集編碼

相關推薦

字符集編碼