字元編碼小結

2021-06-01 18:29:43 字數 612 閱讀 3040

1    早期只有127以內的字元  20以內是控制字元。

2    後來各國有了自己的編碼,但一般是兩個位元組表示乙個字元(中國)。

3    unicode 就是解決各國之間衝突的問題,定義了統一的標準。 可以65025個字元。

這樣英文也是乙個字元兩個位元組,這樣的好處是全世界統一。

4   utf 系列其實和unicode可以一一對應,目的是為了網路傳輸,具體還要分析。

5   ansi,其實就是 應為ansi和gbk的組合。

6   亂碼,其實是因為把編碼弄錯了。 另乙個編碼的某個二進位製流可能不存在這個字元,

而計算機顯示文字可能是按照一定的對映關係做的,所以會有亂碼。

6   utf-8有點類似於haffman編碼,它將unicode編碼為:

0x00-0x7f的字元,用單個位元組來表示;

0x80-0x7ff的字元用兩個位元組表示;

0x8000-0xffff的字元用3位元組表示;

漢字的unicode範圍是:0x4e00~0x9fa5

其實這個範圍還包括了中,日,韓的字元。

看來utf-8 相當是給unicode壓縮一下。

utf除了能節約空間,還能提高糾錯率,gbk不容易糾錯。

字元編碼小結

ansi ascii american standard code for information interchange 乙個位元組 字元 0 0x32 為控制碼 33 255 為 字元 中 國人民 gb2312 去掉ascii表127之後的定義.規定 乙個小於127的字元意義與原來相同,兩個大於...

字元編碼小結

儲存器位 bit 位元組 byte 字 word 雙字 double word 1 byte 8 bits 1 word 2 bytes 16 bits 1 double word 2 words 4 bytes 32 bits 單位元組來自遠古時代。計算機最初是在美國等國家發明的,所以只需要把英文...

字元編碼小結

首先需要記住一件事情,那就是計算機中儲存的一定是二進位制數,是浮點,有符號數,還是無符號數或者是 完全取決於你如何處理這些二進位制,即運算規則。這裡只是關心這些二進位制數跟文字之間的關係,也就是不同的二進位制數如何對映到文字的,或者反過來。有乙個術語用來表示不同的文字和二進位制數之間的關係 字元編碼...