Huffman演算法簡介

huffman演算法是一種基於統計的壓縮方法。它的本質就是對文字檔案中的字元進行重新編碼，對於使用頻率越高的字元，其編碼也越短。但是任何2個字元的編碼，是不能出現向前包含的。也就是說字元a的編碼的前段，不可能為字元b的編碼。經過編碼後的文字檔案，主要包含2個部分：huffman碼表部分和壓縮內容部分。解壓縮的時候，先把huffman碼表取出來，然後對壓縮內容部分各個字元進行逐一解碼,形成原始檔。

由此可見，使用huffman演算法的關鍵是形成huffman碼表。怎樣才能生成乙個「使用頻率越高的字元，其編碼也越短」的碼表呢?這裡就要用到 huffman樹的資料結構。當把一棵huffman樹生成後，碼表也就生成了。以下舉例說明，假定我們的原始文字為"abcbbcccc"

huffman樹生成步驟:

1.掃瞄原始檔，對字元頻率進行統計。

對於我們的樣例，統計結果是:a:1 b:3 c:5 (按頻率公升序排列)

2.從上述佇列中取出頻率最低的2個節點，合併成乙個頻率為2節點頻率之和的樹枝節點x，加入到原佇列中，加入後，繼續保持佇列按頻率公升序排列.

3.重複步驟2，直到佇列中只有乙個節點。

4.這樣，我們就形成了一棵huffman樹。葉子節點為字元，從樹根節點到葉子節點的路徑即為該字元的huffman編碼。從乙個節點導航到其左孩子，該段路徑為0，導航到右孩子，該段路徑為1.所以，a字元的編碼就是00,b字元的編碼為01,c字元的編碼為1，符合"使用頻率越高的字元，編碼越短"的要求。理論論證過程見《演算法導論》p233

5.huffman碼表生成後，原文本"abcbbcccc"就變成了0001101011111的位串，按每個字元占用2個byte計算，大小由原來的18個位元組(9*2),共144個bit,變成了13個bit,2個位元組。達到了壓縮的目的。

解壓縮過程:

解壓縮也分成2部分進行，首先是根據壓縮檔案中的huffman碼表，在記憶體中生成一棵huffman樹，然後，根據huffman樹，對壓縮內容進行解壓縮。比如如果壓縮內容為位串0001101011111，那麼從樹根節點起，因為第乙個bit為0，先轉向左子樹，第二個bit為0,再轉向左子樹,到達葉子a,所以解碼出來的第乙個字元就是a,每次解壓乙個字元，都從根節點起，根據bit流，向左或向右轉，直到到達葉子節點，也就是解壓出來的字元。一直重複此過程，直到所有的字元都被解壓縮。

使用huffman壓縮演算法對文字檔案壓縮後，就形成了乙個壓縮檔案，該壓縮檔案包含2部分，一部分為huffman碼表，也就是huffman 樹，第二部分為根據碼表生成的內容位串。如何設計huffman樹的儲存格式呢?本文採用從上到下，從左到右分層遍歷節點，順序儲存的方式。如下圖:

也就是說，對於前述的huffman樹，其持久化形式為:0xfffe 0xfffe 0x0063 0x0061 0x0062,其中0xfffe代表樹枝節點,而0x0061,0x0062,0x0063分別為a,b,c的unicode碼。因為所有的樹枝節點的值都是0xfffe，所有樹枝節點都有2個孩子，節點排列方式是按從上到下，從左到右分層排列，所以能根據此持久化位元組陣列，把huffman樹在記憶體中重新生成。

另外為了公升級版本，嵌入了magic number和version。

Huffman演算法簡介

貪心演算法 Huffman編碼

Huffman編碼演算法的實現

Huffman樹與Huffman編碼

Huffman演算法簡介

貪心演算法 Huffman編碼

Huffman編碼演算法的實現

Huffman樹與Huffman編碼

相關推薦