目前用到的字符集簡介

2021-08-30 14:14:40 字數 1678 閱讀 5774

[b]utf-8與ascii區別:[/b]utf-8(8 位universal character set/unicode transformation format)是一種針對unicode的可變長度字元編碼(定長碼),也是一種字首碼。它可以用來表示unicode標準中的任何字元,且其編碼中的第乙個位元組仍與ascii相容,這使得原來處理ascii字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字的應用中,優先採用的編碼。

utf-8是ascii的乙個超集。因為乙個純ascii字串也是乙個合法的utf-8字串,所以現存的ascii文字不需要轉換。為傳統的擴充套件ascii字符集設計的軟體通常可以不經修改或很少修改就能與utf-8一起使用。

[b]utf8_unicode_ci和utf8_general_ci區別[/b]

在phpmyadmin中有多種字符集,其中utf8_unicode_ci和utf8_general_ci是最常用的,但是utf8_general_ci對某些語言的支援有一些小問題,如果可以接受,那最好使用utf8_general_ci,因為它速度快。否則,請使用較為精確的utf8_unicode_ci,不過速度會慢一些。

unicode(統一碼、萬國碼、單一碼、標準萬國碼)是業界的一種標準,它可以使電腦得以呈現世界上數十種文字的系統。

unicode的漢字處理方法一直備受抨擊。有指這種把數萬漢字逐一編碼的方式,非常浪費資源,要把漢字加到unicode標準中也不容易。也有批評處理unicode中漢字編碼的專家,並不是真正研究漢字的學者[2]。從早期的中文電腦時期開始,已有研究以部件產生漢字(動態組字),取代漢字逐一編碼方法。

[b]gbk全名為漢字內碼擴充套件規範,[/b]英文名chinese internal code specification。k 即是「擴充套件」所對應的漢語拼音(kuozhan11)中「擴」字的聲母。gbk 來自中國國家標準**gb 13000.1-93。

字元有一位元組和雙位元組編碼,00–7f範圍內是一位,和ascii保持一致,此範圍內嚴格上說有96個文字和32個控制符號。

gbk/1和gbk/2的領域即gb 2312-80用通常方法編碼的區域。gb 2312 (正確說法是其根據euc-cn的編碼)和iso/iec 2022中呼叫gr其他的94² 字符集一樣,a1–fe的範圍開始讀取位元組對。這是上圖中右下角的不分。但是,gb 2312中對於aa–af和f8–fe區域是空的,沒有賦予編碼。於是gbk就在這些領域裡進行拓展。二者剩餘部分作為使用者定義區。

gbk比gb2312能顯示更多的漢字

[b]gbk包含全部中文字元;utf-8則包含全世界所有國家需要用到的字元。[/b]

[b]big5是台灣計算機界實行的漢字編碼字符集。[/b]

它包含了 420 個圖形符號和 13070 個漢字(不包含簡化漢字)。編碼範圍是 0x8140-0xfe7e、0x81a1-0xfefe,其中 0xa140-0xa17e、0xa1a1-0xa1fe 是圖形符號區,0xa440-0xf97e、0xa4a1-0xf9fe 是漢字區。

big5也是繁體的意思,gb是簡體的意思

[b]euc全名為extended unix code,是乙個使用8位編碼來表示字元的方法。[/b]

它使用了一些相容於iso/iec 2022區位碼的94x94編碼表,把每個區位加上0xa0來表示,以便相容於ascii。

它主要用於表示及儲存漢語文字、日語文字及朝鮮文字。

gbk包括簡體和繁體,但是gb2312只包括簡體

mysql api 字符集 MySQL字符集

mysql字符集包括字符集 character 和 collation 兩個概念。字符集是用來定義mysql儲存字串的規則,校對規則則是定義了比較字串的方式。字串和校對規則是一對多的 關係。使用命令 show collation like gbk 可檢視相關的校對規則 使用 show charact...

Unicode字符集和多字符集

由於各國語言的加入,ascii已經不能滿足資訊交流的需要,因此,為了能夠表示其它國家的文字,各國在ascii的基礎上制定了自己的字符集,它們正式的名稱應該是mbcs multi byte chactacter system,即多位元組字元系統 型別說明 unicode ansi 通用型別 字元wch...

mysql 集群字符集 Mysql 字符集

字符集與字元比較 字符集字符集是某種字元的集合,比如最常見的ascii碼,由127個字元組成,只需要乙個位元組就能表示 我們常說的字符集還是gbk iso utf8 mysql 我們使用得最多的字符集就是gbk 和 utf8了 他們都是變長字符集,如果字元在ascii範圍內就使用乙個位元組表示,其他...