python基礎12 字元編碼

2022-09-03 12:36:06 字數 1911 閱讀 7300

字元編碼

字符集和字元編碼一般都是成對出現的,如ascii、ios-8859-1、gb2312、gbk,都是即表示了字符集又表示了對應的字元編碼。unicode比較特殊,有多種字元編碼(utf-8,utf-16等)

ascii(american standard code for information interchange, 美國資訊交換標準**)是基於拉丁字母的一套電腦編碼系統。它主要用於顯示現代英語,而其擴充套件版本eascii則可以部分支援其他西歐語言,並等同於國際標準iso/iec 646。

gb 2312 或 gb 2312–80 是中華人民共和國國家標準簡體中文字符集,全稱《資訊交換用漢字編碼字符集·基本集》,又稱gb0,由中國國家標準總局發布,2023年5月1日實施。gb 2312編碼通行於中國大陸;新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支援gb 2312。

gb 2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內的682個字元。

gb 2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。但對於人名、古漢語等方面出現的罕用字和繁體字,gb 2312不能處理,因此後來gbk及gb 18030漢字字符集相繼出現以解決這些問題。

漢字內碼擴充套件規範,稱gbk,全名為《漢字內碼擴充套件規範(gbk)》1.0版,由中華人民共和國全國資訊科技標準化技術委員會2023年12月1日制訂,國家技術監督局標準化司和電子工業部科技與質量監督司2023年12月15日聯合以《技術標函[1995]229號》檔案的形式公布。

gbk的k為漢語拼音kuo zhan(擴充套件)中「擴」字的聲母。英文全稱chinese internal code extension specification。

全稱:國家標準gb 18030-2005《資訊科技 中文編碼字符集》,是中華人民共和國現時最新的內碼字集,是gb 18030-2000《資訊科技 資訊交換用漢字編碼字符集 基本集的擴充》的修訂版。與gb 2312-1980完全相容,與gbk基本相容;支援gb 13000(93版等同於unicode 1.1;2010版等同於unicode 4.0)及unicode的全部統一漢字,共收錄漢字70,244個。 本規格的初版是由中華人民共和國資訊產業部電子工業標準化研究所起草,由國家質量技術監督局於2023年3月17日發布。現行版本為國家質量監督檢驗總局和中國國家標準化管理委員會於2023年11月8日發布,2023年5月1日實施。

此標準內的單位元組編碼部分、雙位元組編碼部分,和四位元組編碼部分收錄的中日韓統一表意文字擴充套件a區漢字,為強制性標準。其他部分則屬於規模性標準。在中華人民共和國境內所有軟體產品,都需要支援這個同時包含單位元組、雙位元組和四位元組編碼的規格。

gb 18030主要有以下特點:

unicode(中文:萬國碼、國際碼、統一碼、單一碼)是電腦科學領域裡的一項業界標準。它對世界上大部分的文字系統進行了整理、編碼,使得電腦可以用更為簡單的方式來呈現和處理文字。

可以這樣理解:unicode是字符集,utf-32/ utf-16/ utf-8是三種字元編碼方案。 utf-8是一種很彆扭的編碼,具體表現在他是變長的,並且相容ascii

比如一款南韓軟體,到中國以後顯示亂碼,那就得需要通過轉碼把他們編碼集,轉換為unicode(utf-8)編碼集。這樣他們就可以正常顯示韓文了!(這裡只是轉編碼集並不是翻譯成中文不要弄混了~~!) 編碼轉換過程如下圖:

gbk需要轉換為utf-8流程:

gbk 【decode】解碼為unicode。

unicode【encode】編碼為utf-8。

utf-8需要轉換為gbk流程:

utf-8【decode】解碼為unicode。

unicode【encode】編碼為gbk。

python基礎 8 字元編碼

1 ascii ascii american standard code for information interchange,美國標準資訊交換 是基於拉丁字母的一套電腦編碼系統,主要用於顯示現代英語和其他西歐語言,其最多只能用 8 位來表示 乙個位元組 即 2 8 256 1,所以,ascii碼...

python基礎4 字元編碼

python基礎 字元編碼 一 了解字元編碼 1.文字編輯器訪問檔案的原理 nodepad pycharm,word 開啟編輯器就開啟了啟動了乙個程序,是在記憶體中的,所以在編輯器編寫的內容也都是存放與記憶體中的,斷電後資料丟失 因而需要儲存到硬碟上,點選儲存按鈕,就從記憶體中把資料刷到了硬碟上。在...

Python零基礎入門 基礎(六) 字元編碼

python直譯器在載入 py 檔案中的 時,會對內容進行編碼 預設ascill ascii american standard code for information interchange,美國標準資訊交換 是基於拉丁字母的一套電腦編碼系統,主要用於顯示現代英語和其他西歐語言,其最多只能用 8...