Python基礎知識之字元編碼與轉碼

python直譯器在載入.py檔案中的**時，會對內容進行編碼（預設ascii）

ascii（american standard code for information interchange,美國標準資訊交換**）是基於拉丁字母的一套電腦編碼系統，主要用於顯示現代英語和其他西歐語言，其最多只能用8位來表示（乙個位元組），ascii碼最多只能表示255個字元。

gb2312編碼適用於漢字處理、漢字通訊等系統之間的資訊交換，通行於中國大陸；新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支援gb 2312。

基本集共收入漢字6763個和非漢字圖形字元682個。整個字符集分成94個區，每區有94個位。每個區位上只有乙個字元，因此可用所在的區和位來對漢字進行編碼，稱為區位碼。

把換算成十六進製制的區位碼加上2020h，就得到國標碼。國標碼加上8080h，就得到常用的計算機機內碼。2023年又頒布了《漢字編碼擴充套件規範》（gbk）。gbk與gb 2312—1980國家標準所對應的內碼標準相容，同時在字彙一級支援iso/iec10646—1和gb 13000—1的全部中、日、韓（cjk）漢字，共計20902字。

統一碼、萬國碼、單一碼）是電腦科學領域裡的一項業界標準,包括字符集、編碼方案等。unicode 是為了解決傳統的字元編碼方案的侷限而產生的，它為每種語言中的每個字元設定了統一並且唯一的二進位制編碼，以滿足跨語言、跨平台進行文字轉換、處理的要求。

utf-8編碼格式規定中文統一佔三個位元組。

如何獲取當前系統的預設**格式？

import sys
print(sys.getdefaultencoding())

在python3 中預設所有的字元都是unicode，因此只需要encode不需要decode成unicode了

需要注意的是，encode之後的字串會預設轉換為bytes型別。

Python基礎知識之字元編碼與轉碼

基礎知識總結字元編碼

python基礎知識之字串

Python基礎知識之字串

Python基礎知識之字元編碼與轉碼

基礎知識總結 字元編碼

python基礎知識之字串

Python基礎知識之字串

相關推薦

基礎知識總結字元編碼