20210214編碼與解碼

2021-10-19 10:17:07 字數 1497 閱讀 9564

可見字元:英文本母、數字、標點符號(0-31、127,共33個)

控制字元:回車、換行等(32-126,共95個)

最初的編碼:

碼位解釋

二進位制資訊(ascii碼)

0空字元

0000 0000

1標題開始

0000 0001

2正文開始

0000 0010……

…10換行0000 1010……

…13回車0000 1101

31單元分隔符

0001 1111

32空格

0010 000033!

0010 0001……

…4800011 0000……

…65a0100 0001……

…90z0101 1010……

…99a0110 0001……

…122

z0111 1010……

…127

刪除0111 1111

所以ascii碼只能表示0000 0000- 0111 1111共128個字元

歐洲人擴充套件了ascii字符集,1000 0000-1111 1111,擴充套件了128個

當電腦來到中國,256個字元依然不夠用,因此用16位表示乙個字元

先設計字符集,才能對字符集編碼

使用分割槽管理,共計94個區,每個區含94個位,共8836個碼位

01-09區收錄除漢字外的682個字元

10-15區為空白區,沒有使用

16-55區收錄3755個一級漢字,按拼音排序

56-89區收錄3008個二級漢字,按部首/筆畫排序

88-94區為空白區,沒有使用

比如:侃字碼位5709

經過運算侃字的gb2312碼為0xd90xa9

gb2312高位和低位都大於127

gb2312仍然遺漏了很多漢字,因此不再規定低位大於127,高位大於127,變為gbk編碼,新增近20000個漢字和符號

新增幾千少數民族字元

把世界所有字元都放在一起,並編號

最初採用ucs-2字符集,可表示2^16個字元

ucs-4字符集,可表示2^32個字元,需要儲存空間較大,很長時間沒有被各國接受

每次傳輸8位資料,並且是一種可變長的編碼格式。

具體將ucs-4字符集碼位劃分為4個區間

ucs-4區間

utf-8碼位

0x0000 0000-0x0000 007f

0******x

0x0000 0080-0x0000 07ff

110***xx 10******

0x0000 0800-0x0000 ffff

1110***x 10****** 10******

0x0001 0000-0x0010 ffff

11110*** 10****** 10****** 10******

is 編碼與解碼

is 和 主要是數字和字串的比較 1 區別 比較的是兩邊的值 is比較的是兩邊值的id id獲取的方法 id 2 小資料池 5 256 3 字串中特殊字元有id不同 4 字串中單個字元 20以內,記憶體位址是一樣的 21以上記憶體位址不一致 編碼與解碼 1 encode a 把明文編譯成a格式 de...

Huffman編碼與解碼

近期學習資料結構碰到huffman編碼與解碼問題,自己動手寫了一些,注釋比較全,ok,下面直接貼 include include define telemtype char define wtype int define leafnumber 5 預設權重集合大小 define totalnumbe...

HTML編碼與解碼

由於html是一種由符號標記的語言,所以該語言占用了一些表示的符號。而頁面隨時需要表示這些符號,所以html將一些被占用的符號或一些特殊功能的符號使用了一些特殊的方法標記,以便展示。這些方法就是html編碼。html 中的預留字元必須被替換為字元實體。如 在 html 中不能使用小於號 和大於號 這...