007 Http之常用編碼

2021-07-10 04:53:15 字數 1210 閱讀 9035

常用編碼

------------

------------

------------

------------

1)ascii 和 ansi編碼

字元內碼(charcter code)指的是用來代表字元的內碼.讀者在輸入和儲存文件時都要使用內碼,內碼分為 

單位元組內碼 -- single-byte character sets (sbcs),可以支援256個字元編碼. 

雙位元組內碼 -- double-byte character sets)(dbcs),可以支援65000個字元編碼.

前者即為ascii編碼,後者對應ansi.

2)unicode

unicode也是一種字元編碼方法,不過它是由國際組織設計,可以容納全世界所有語言文字的編碼方案.

它是一種2位元組編碼

3)utf-8

這是為傳輸而設計的編碼,

其中utf-16和unicode

編碼大致一樣, utf-8就是以8位為單元對unicode進行編碼。從unicode到utf-8的編碼方式如下:

unicode編碼(16進製制)    utf-8 位元組流(二進位制) 

0000 - 007f         0******x 

0080 - 07ff         110***xx 10****** 

0800 - ffff         1110***x 10****** 10****** 

例如「xx」字的unicode編碼是6c49。6c49在0800-ffff之間,所以肯定要用3位元組模板了:1110***x 10****** 10******。將6c49寫成二進位制是:0110 110001 001001, 用這個位元流依次代替模板中的x,得到:11100110 10110001 10001001,即e6 b1 89。

4)gbk

a)gb2312

gb2312是適合中國人使用的編碼,由中國國家標準總局發布。包括:

127之前的符號 :127之前的符號跟 ascii 碼所表示的意義相同。都是1位元組表示。

127之後的符號:127之後的符號統一用2位元組表示,包含了幾乎所有的簡體中文本。

b)gbk

gbk 編碼的前半部分跟gb2312完全相同,還往後擴充套件了更多的漢字,包括幾乎所有常見的不常見的漢字、繁體字、日語的平假名和片假名、俄文本母。

可以說gbk適用於中國大陸、台灣、香港、日本和**。

HTTP協議之chunk編碼 分塊傳輸編碼

transfer encoding chunked 表示輸出的內容長度不能確定,普通的靜態頁面 之類的基本上都用不到這個。但動態頁面就有可能會用到,但我也注意到大部分asp,php,asp.net動態頁面輸出的時候大部分還是使用content length,沒有使用transfer encoding...

python之編碼解碼 字串常用方法

bytes.decode encoding utf 8 errors strict python3中沒有 decode方法,但我們可以使用bytes物件的decode 方法來解碼給定的bytes物件,這個bytes物件可以由str.encode 來編碼返回。encode encoding utf 8...

python之編碼解碼 字串常用方法

bytes.decode encoding utf 8 errors strict python3中沒有 decode方法,但我們可以使用bytes物件的decode 方法來解碼給定的bytes物件,這個bytes物件可以由str.encode 來編碼返回。encode encoding utf 8...