ansi字元,unicode字元

2021-07-04 00:01:24 字數 897 閱讀 4941



編碼指不同國家的語言在計算機中的一種儲存和解釋規範

ansi與ascii

最初,internet上只有一種字符集——ansi的ascii字符集(american standard code for information interchange, 「美國資訊交換標準碼),它使用7 bits來表示乙個字元,總共表示128個字元,後來ibm公司在此基礎上進行了擴充套件,用8bit來表示乙個字元,總共可以表示256個字元,充分利用了乙個位元組所能表達的最大資訊

nansi字符集:ascii字符集,以及由此派生並相容的字符集,如:gb2312,正式的名稱為mbcs(multi-byte chactacter system,多位元組字元系統),通常也稱為ansi字符集。

unicode與utf8,utf16

由於每種語言都制定了自己的字符集,導致最後存在的各種字符集實在太多,在國際交流中要經常轉換字符集非常不便。因此,產生了unicode字符集,它固定使用16 bits(兩個位元組)來表示乙個字元,共可以表示65536個字元

標準的unicode稱為utf-16(utf:ucs transformation format )。後來為了雙位元組的unicode能夠在現存的處理單位元組的系統上正確傳輸,出現了utf-8,使用類似mbcs的方式對unicode進行編碼。(unicode字符集有多種編碼形式)

例如「連通」兩個字的unicode標準編碼utf-16 (big endian)為:de 8f 1a 90

而其utf-8編碼為:e8 bf 9e e9 80 9a

當乙個軟體開啟乙個文字時,它要做的第一件事是決定這個文字究竟是使用哪種字符集的哪種編碼儲存的。軟

檢測檔案頭標識,提示使用者選擇,根據一定的規則猜測

最標準的途徑是檢測文字最開頭的幾個位元組,開頭位元組 charset/encoding,

ANSI字元和UNICODE字元的轉換

此方法經常用於vc寫的dll或ocx函式的返回值中,而且此dll或ocx函式是供vb或js呼叫的。函式返回使用下面的格式返回 return sysallocstring bstr wtext wtext是轉換後的unicode字串 或 return sysallocstring bstr stext...

ANSI與Unicode字元巨集轉換

ansi 操作函式以 str開頭,如 strcpy strcat strlen unicode 操作函式以 wcs開頭,如 wcscpy wcscpy wcslen ansi unicode 操作函式以 tcs 開頭 tcscpy c執行期庫 ansi unicode 操作函式以 lstr 開頭ls...

Unicode與多字符集(ANSI)

一 unicode與多字符集 ansi 是兩種文字編碼方式 1 ansi時,各國文字的編碼之間有些重疊編碼 編碼衝突 2 unicode,各國編碼統一編碼,無論在哪國的作業系統中,各國的文字都能無障礙顯示 3 wchar t是屬於雙位元組變數 4 unicode的字串常量需要在前面加乙個大寫的l,c...