Python基礎知識之字元編碼與轉碼

2022-09-19 07:42:10 字數 1050 閱讀 4059

python直譯器在載入.py檔案中的**時,會對內容進行編碼(預設ascii)

ascii(american standard code for information interchange,美國標準資訊交換**)是基於拉丁字母的一套電腦編碼系統,主要用於顯示現代英語和其他西歐語言,其最多只能用8位來表示(乙個位元組),ascii碼最多只能表示255個字元。

gb2312編碼適用於漢字處理、漢字通訊等系統之間的資訊交換,通行於中國大陸;新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支援gb 2312。

基本集共收入漢字6763個和非漢字圖形字元682個。整個字符集分成94個區,每區有94個位。每個區位上只有乙個字元,因此可用所在的區和位來對漢字進行編碼,稱為區位碼。

把換算成十六進製制的區位碼加上2020h,就得到國標碼。國標碼加上8080h,就得到常用的計算機機內碼。2023年又頒布了《漢字編碼擴充套件規範》(gbk)。gbk與gb 2312—1980國家標準所對應的內碼標準相容,同時在字彙一級支援iso/iec10646—1和gb 13000—1的全部中、日、韓(cjk)漢字,共計20902字。

統一碼、萬國碼、單一碼)是電腦科學領域裡的一項業界標準,包括字符集、編碼方案等。unicode 是為了解決傳統的字元編碼方案的侷限而產生的,它為每種語言中的每個字元設定了統一並且唯一的二進位制編碼,以滿足跨語言、跨平台進行文字轉換、處理的要求。

utf-8編碼格式規定中文統一佔三個位元組。
如何獲取當前系統的預設**格式?

import sys

print(sys.getdefaultencoding())

在python3 中預設所有的字元都是unicode,因此只需要encode不需要decode成unicode了

需要注意的是,encode之後的字串會預設轉換為bytes型別。

基礎知識總結 字元編碼

因為資料是二進位制表示的,現在存在各種各樣的編碼,因為計算機識別的編碼與資料本身的編碼不一致,就會造成亂碼。ascii 美國規定的128個字元表示的二進位制表示方法,這種方法稱為ascii碼,計算機儲存的最小單位是位元組 8位 ascii碼的後7位表示字元本身,最高位設定為0,後7位0 127表示1...

python基礎知識之字串

凡是用引號 包括單引號 雙引號 三引號引起來的都是字串,其中單引號和雙引號沒有任何區別,可巢狀使用,多因好用於建立多行字串,並且可賦值給變數 a abcdefghijklmn print a 2 字串的索引從0開始,所以輸出cprint a 0 3 可以進行切片操作,就是通過索引 開始位置 結束位置...

Python基礎知識之字串

字串 1 字串拼接辦法 1 用 拼接 aaa sbbb f 2 用join 方法拼接 a d f g join a dfg a a b c 必須是字串 b.join a a b c dir usr local bin join dir usr local bin 3 用format 方法拼接 tr ...