關於各種編碼的簡要理解

2021-07-26 15:02:04 字數 911 閱讀 9982

gb2312:兩個大於127的字元連在一起時,就表示乙個漢字。還重新編碼了acsii,於是被重新編碼的兩個位元組acsii就是常說的「全形」字元,而原來127以下的那些就叫做「半形」字元。

gbk:只要第乙個位元組大於127,就固定表示這是乙個漢字的開始,gbk包括了gb2312的所有內容,同時又增加了近兩萬個新漢字(包括繁體)和符號。

gb18030:增加了幾千個少數名族的字

這一系列漢字編碼標準統稱為dbcs(double byte character set雙位元組字符集)

ansi編碼:就是不同的國家和地區制定了不同的標準的總匯。對於英文檔案是ascii編碼。在簡體中文windows作業系統中,ansi 編碼代表 gbk 編碼;在正體中文windows作業系統中,ansi編碼代表big5;在日文windows作業系統中,ansi 編碼代表 shift_jis 編碼。

unicode:廢了所有的地區性編碼方案,重新編碼了所有字符集,並取名"universal multiple-octet coded character set",簡稱 ucs, 俗稱 "unicode"。 unicode嚴格來說只是字符集,它為每個字元定義乙個數字序號,沒有編碼方式。

utf-8:utf-8其實就是unicode字符集的編碼方式,它規定了unicode字元如何在計算機中儲存和傳輸等等。

gbk與unicode:unicode重新編碼並沒有考慮到各個國家字元編碼的相容問題,即就gbk編碼而言,unicode並沒有參照gbk的字元對映關係。因此,gbk與unicode對漢字字元的編碼是完全不同的,更別提gbk與utf8的轉換。所以我猜想gbk與unicode的轉換只能根據查詢出來漢字的對比相同與否來判斷了。

unicode和utf8大行其道,為什麼gbk還不被廢棄?

原因:gbk的中文字元佔兩個位元組,utf8編碼下的中文字元佔三個位元組,相比之下,gbk占用記憶體更小,更節省空間

關於字元編碼的理解

關於字符集的問題一直是模稜兩可的,自己想下部落格也想對字符集做一下自己的理解 gbk gbk是我們中國人自己的編碼,因為acsii不相容中文,所以中國人就自己就研究了一套字符集來來支援中文,gbk是相容ascii的也就是說,英文和數字在gbk是佔乙個位元組的,中文佔兩個位元組 ascii acsii...

關於win2000各種服務的簡要說明

alerter 警報器服務 區域網中當系統發生問題時向系統管理員發出警報,對普通用 戶可設定為 已禁用 或 手動 clipbook 剪貼簿 通過 work dde和 work dde dsdm提供的網路動態資料交換服 務,查閱遠端機器中的剪貼簿。對普通使用者可設定為 已禁用 puter browse...

C 類的簡要理解(一)

類建構函式與析構函式 類的析構函式 c 在 c 語言的基礎上增加了物件導向程式設計,c 支援物件導向程式設計。類是 c 的核心特性,通常被稱為使用者定義的型別。類用於指定物件的形式,它包含了資料表示法和用於處理資料的方法。類中的資料和方法稱為類的成員。函式在乙個類被稱為類的成員。c 類定義 定義乙個...