Base64演算法詳解

2021-06-26 14:30:51 字數 2933 閱讀 4196

base64編碼要求把3個8位位元組(3*8=24)轉化為4個6位的位元組(4*6=24),之後在6位的前面補兩個0,形成8位乙個位元組的形式。

具體轉化形式間下圖:

字串「張3」

11010101 11000101 00110011

00110101 00011100 00010100 00110011

表1 可以這麼考慮:把8位的位元組連成一串110101011100010100110011

然後每次順序選6個出來之後再把這6二進位制數前面再新增兩個0,就成了乙個新的位元組。之後再選出6個來,再新增0,依此類推,直到24個二進位制數全部被選完。

讓我們來看看實際結果:

字串「張3」

11010101 hex:d5 11000101 hex:c5 00110011 hex:33

00110101 00011100 00010100 00110011

字元』5』 字元』^\』 字元』^t』 字元』3』

十進位制53 十進位制34 十進位制20 十進位制51

表2 這樣「張3 」這個字串就被base64表示為」5^\^t3」了麼?。錯!

base64編碼方式並不是單純利用轉化完的內容進行編碼。像』^\』字元是控制字元,並不能通過計算機顯示出來,在某些場合就不能使用了。base64有其自身的編碼表:

table 1: the base64 alphabet

value encoding value encoding value encoding value encoding

0 a 17 r 34 i 51 z

1 b 18 s 35 j 52 0

2 c 19 t 36 k 53 1

3 d 20 u 37 l 54 2

4 e 21 v 38 m 55 3

5 f 22 w 39 n 56 4

6 g 23 x 40 o 57 5

7 h 24 y 41 p 58 6

8 i 25 z 42 q 59 7

9 j 26 a 43 r 60 8

10 k 27 b 44 s 61 9

11 l 28 c 45 t 62 +

12 m 29 d 46 u 63 /

13 n 30 e 47 v (pad) =

14 o 31 f 48 w

15 p 32 g 49 x

16 q 33 h 50 y

表3 這也是base64名稱的由來,而base64編碼的結果不是根據演算法把編碼變為高兩位是0而低6為代表資料,而是變為了上表的形式,如」a」就有7位,而」a」就只有6位。表中,編碼的編號對應的是得出的新位元組的十進位制值。因此,從表2可以得到對應的base64編碼:

字串「張3」

11010101 hex:d5 11000101 hex:c5 00110011 hex:33

00110101 00011100 00010100 00110011

字元』5』 字元』^\』 字元』^t』 字元』3』

十進位制53 十進位制34 十進位制20 十進位制51

字元』1』 字元』i』 字元』u』 字元』z』

表4 這樣,字串「張3」經過編碼後就成了字串「1iuz」了。

base64將3個位元組轉變為4個位元組,因此,編碼後的**量(以位元組為單位,下同)約比編碼前的**量多了1/3。之所以說是「約」,是因為如果**量正好是3的整數倍,那麼自然是多了1/3。但如果不是呢?

細心的人可能已經注意到了,在the base64 alphabet中的最後乙個有乙個(pad) =字元。這個字元的目的就是用來處理這個問題的。

當**量不是3的整數倍時,**量/3的餘數自然就是2或者1。轉換的時候,結果不夠6位的用0來補上相應的位置,之後再在6位的前面補兩個0。轉換完空出的結果就用就用「=」來補位。譬如結果若最後餘下的為2個位元組的「張」:

字串「張」

11010101 hex:d5 11000101 hex:c5

00110101 00011100 00010100

十進位制53 十進位制34 十進位制20 pad

字元』1』 字元』i』 字元』u』 字元』=』

表6 這樣,最後的2個位元組被整理成了「1iu=」。

同理,若原**只剩下乙個位元組,那麼將會新增兩個「=」。只有這兩種情況,所以,base64的編碼最多會在編碼結尾有兩個「=」

至於將base64的解碼,只是乙個簡單的編碼的逆過程,讀者可以自己**。我將在文章的最後給出解碼演算法。

演算法實現

其實在演算法詳解的時候基本上已經說的很清楚了。用於程式上,除去約束判斷,大概可以分為如下幾步幾步:

讀取資料3位元組用and取前6位,放入新的變數中右移兩位,高兩位清0and取第乙個位元組的後2位和第二個位元組的前4位移位放入新變數中右移兩位,清0……依此類推。

解碼的類c語言實現的演算法:

byte lmovebit(int base, int movenum)

char base64_alphabet=

; byte base64decode(char *base64code, dword base64length) }

} i--;

for(k=1;k<4;k++)

temp1[i-(k-1)]=temp1[i-(k-1)]/lmovebit(2,(k-1)*2);

temp2=temp1[i-k];

temp2=temp2&(lmovebit(2,k*2)-1);

temp2*=lmovebit(2,8-(2*k));//move 4

temp1[i-(k-1)]=temp1[i-(k-1)]+temp2;

buffer[base64b*3+(3-k)]=temp1[i-(k-1)];

} }

return buffer;

}

Base64編碼詳解

一.base64編碼由來 為什麼會有base64編碼呢?因為有些網路傳送渠道並不支援所有的位元組,例如傳統的郵件只支援可見字元的傳送,像ascii碼的控制字元就 不能通過郵件傳送。這樣用途就受到了很大的限制,比如二進位製流的每個位元組不可能全部是可見字元,所以就傳送不了。最好的方法就是在不改變傳統協...

base64編碼詳解

std string basic 64 getbase64str std string strsource 存放ascii值 if nloop 0 return encodestr.c str for k 0 k lenstring k 3 b 0 strsource k encodestr chk...

Base64編碼詳解

base64編碼以24個二進位制為乙個基本計算單位。base64編碼的由來是由於0 63都有唯一的對應字母,剛好有64個字元,所以叫base64。要想表示64個所有的字元,需要6 64 26 個位元,所以24個二進位制可以分有4個6位二進位制 4 6 24 將6個位元高位補0變為8個位元後,就可以表...