編碼學習之unicode

2022-08-09 09:51:11 字數 741 閱讀 4921

unicode(統一碼、萬國碼、單一碼)是一種在計算機上使用的字元編碼,它為每種語言中的每個字元設定了統一並且唯一的二進位制編碼,來滿足跨平台、跨語言進行文字轉換、處理的要求。

unicode是基於通用字符集(universal character set)的標準來發展的,現在ucs主要有兩種表示方式,一種是ucs-2使用兩個位元組編碼,另一種是ucs-4使用四個位元組編碼。目前大部分的unicode主要是使用ucs-2標準來的。

unicode 通過對每個字元進行定義,比如"經"的編碼是)0x7ecf,注意字元編碼一般使用十六進製制來表示,為了和十進位制區分,十六進製制以0x開頭。

unicodde 的字元編碼包含了ascii編碼,將0-127的字元編碼來表示ascii編碼定義的字元。對於漢字的編碼來說,unicode肯定不可能定義出所有的漢字(簡體字、繁體字等),所以選擇最常用的漢字來進行編碼,摒棄了一些極少用的漢字,這是因為兩個位元組的unicode,理論上能夠定義65536個字元,但是目前漢字的數量至少6、7萬個,所以無法完全定義。ucs-4標準的unicode完全可以勝任這項工作,但是目前定義工作還沒有完善,所以沒有普遍使用。

計算機記憶體中儲存的肯定是一些01組成的編碼,如果檔案中的編碼使用的unicode編碼的話,每個字元都對應唯一的乙個unicode編碼,這個編碼占用兩個位元組,在存入記憶體中的時候,轉換成二進位制的形式,通過一定的實現方法(這裡的實現方法的意思是,安裝字元對應的unicode編碼標準來具體實現,現在流行的unicode編碼標準的實現有utf-8、utf-16等)來儲存在記憶體中。

unicode編碼學習

size medium unicode字符集是我們世界上最完善最全面的字符集,幾乎包含了世界上所有的字元。其實可以這麼理解,unicode字符集是一張巨大的 把世界上各種語言的字元和標點符號都編排到裡面,然後按照一定的順序給每個字元排號 很遺憾的是對於中文來說,這個順序不是按照漢語拼音的順序 有了這...

python 學習 unicode 編碼

如果 檔案需要制定編碼格式如utf 8 1.要在檔案開始時寫如下注釋 coding utf 8 2.或則 使用以下 import sys reload sys sys.setdefaultencoding utf 8 說明 unicode支援不同的編碼方式,最著名的的是utf 8.ascii字元 的...

字元編碼 unicode編碼

1.ascii american standard code for information interchange 美國資訊交換標準 這是計算機上最早使用的通用的編碼方案。那個時候計算機還只是拉丁文本的專利,根本沒有想到現在計算機的發展勢頭,如果想到了,可能一開始就會使用unicode了。當時絕大...