多種字元編碼集的說明

計算機只能識別二進位制資料，早期由來是電訊號。為了方便應用計算機，讓它可以識別各個國家的文字。就將各個國家的文字用數字來表示，並一一對應，形成一張表。這就是編碼表。

iso8859-1：拉丁碼表。歐洲碼表

gb2312：中國的中文編碼表。最多兩個位元組編碼所有字元

unicode：國際標準碼，融合了目前人類使用的所有字元。為每個字元分配唯一的字元碼。所有的文字都用兩個位元組來表示。

utf-8：變長的編碼方式，可用1-4個位元組來表示乙個字元。

unicode不完美，這裡就有三個問題，乙個是，我們已經知道，英文本母只用乙個位元組表示就夠了，第二個問題是如何才能區別unicode和ascii？計算機怎麼知道兩個位元組表示乙個符號，而不是分別表示兩個符號呢？第三個，如果和gbk等雙位元組編碼方式一樣，用最高位是1或o表示兩個位元組和乙個位元組，就少了很多值無法用於表示字元，不夠表示所有字元。unicode在很長一段時間內無法推廣，直到網際網路的出現。

面向傳輸的眾多utf (ucs transfer format)標準出現了，顧名思義，utf-8就是每次8個位傳輸資料，而utf-16就是每次16個位。這是為傳輸而設計的編碼，並使編碼無國界，這樣就可以顯示全世界上所有文化的字元了。

unicode只是定義了乙個龐大的、全球通用的字符集，並為每個字元規定了唯一確定的編號，具體儲存成什麼樣的位元組流，取決於字元編碼方案。推薦的unicode編碼是utf-8和iutf-16。

在標準utf-8編碼中，超出基本多語言範圍(bmp-basic multilingual plane )的字元被編碼為4位元組格式，但是在修正的utf-8編碼中，他們由**編碼對(surogatepairs )表示，然後這些**編碼對在序列中分別重新編碼。結果標準utf-8編碼中需要4個位元組的字元，在修正後的utf-8編碼中將需要6個位元組。

ansi:美國國家標準協會（american national standards institute:ansi）

多種字元編碼集的說明

編碼轉換單個檔案存在多種編碼字符集

字元編碼集

VBS字元編碼的說明

多種字元編碼集的說明

編碼轉換 單個檔案存在多種編碼字符集

字元編碼集

VBS字元編碼的說明

相關推薦

編碼轉換單個檔案存在多種編碼字符集