第一次作業

一、習題與思考題 p7

1-1 資料壓縮的乙個基本問題是「我們要壓縮什麼」，對此你是怎樣理解的？

答：所謂的資料壓縮就是對資料的壓縮，那麼我們可以知道，資料壓縮的定義，就是以最少的數碼表示信源所發的訊號，從而來減少容納給定訊息集合或資料取樣集合的資訊空間。在這裡所謂的訊號空間即被壓縮物件。所以對於資料壓縮的這個問題就是可以這樣解釋了。那麼我們要壓縮的是哪些東西呢？

1、物理空間，如儲存器、磁碟、磁帶、光碟、usb快閃儲存器盤（u盤）等資料儲存介質；

2、時間區間，如傳輸給定訊息集合所需要的時間；

3、電磁頻段，如為傳輸給定訊息集合所要求的頻譜、頻寬等。

綜上所述，也就是指某訊號集合所佔的空域、時域和頻域空間。

1-2 資料壓縮的另乙個基本問題是「為什麼要進行壓縮」，對此你又是怎樣理解的？

答：之所以需要進行資料壓縮，其原因是人們採用數字技術生成和利用的資訊越來越多，但是也使得資料量大增，會出現一些很龐大的資料，占用很大的記憶體空間，而且在傳輸這些資料的過程中，會消耗大量的時間。如果我們不對這些龐大的資料採取一定有效的方法進行壓縮的話，那麼對於我現有的一些空間和時間資源就會造成浪費，那就得不償失了。那麼，對於資料的壓縮分為幾類，分別是：空間域的壓縮、時間域的壓縮、頻率域的壓縮、能量域的壓縮等。使用資料壓縮不僅可以減少儲存空間還可以減少資料的冗餘，所以可見資料壓縮對於現在社會中關於數字技術化方面還是很有必要的。

1-6 資料壓縮技術是如何分類的？

答：資料壓縮的分類方法繁多，尚未統一。但是，一般可以將資料壓縮方法分為兩大類：第一類是無失真壓縮，第二類是有失真壓縮。無失真壓縮：即就是指的在無失真壓縮技術中不存在資訊損失，資料經過無失真壓縮後可以從壓縮資料中準確地恢復出原資料，所以又叫做可逆壓縮；有失真壓縮：就是指的在有失真壓縮技術中會造成一些資訊損失，採用有損技術壓縮後的資料不能再準確還原或重構，所以又叫做不可逆壓縮另外，任何資料壓縮的方法都可以抽象成為一下幾個步驟：

1、建立乙個數學模型，一以便能更緊湊或更有效地「重新表達」規律性不那麼強的或不那麼明顯（或本質性不那麼突出）的原始資料；

2、設法更簡潔地表達利用該模型對原始資料建模所得到的模型引數（或新的資料表示形式）；

3、對資料模型的量化表示或訊息流進行碼子分配，以得到更緊湊的壓縮碼流。

二、參考書《資料壓縮導論（第四版）》p8

1.4 專案與習題

1、用你的計算機上的壓縮工具來壓縮不同檔案。研究原檔案的大小和型別對於壓縮檔案與原檔案大小之比的影響。

答：計算機處理資訊是以二進位制數（0和1）的形式標示的，壓縮軟體把二進位制資訊中相同的字串以特殊字元標記起來壓縮的，從而實現縮小檔案大小的。壓縮比則根據檔案型別的不同有所不同，比如文件類的檔案壓縮比很大（乙個字或者乙個詞在同乙個檔案會反覆出現），而影音檔案的壓縮比則比較小（每乙個畫素點的色素不同是常有的，不同顏色和顏色深淺、對比度的不同、亮度不同、音調音色不同等的對應二進位制**是不同的）。所以壓縮比確實是不能一概而論的。

2、從一本通俗雜誌中摘錄幾段文字，並刪除所有不會影響理解的文字，從而實現壓縮。

在"this is the dog that belongs to my friend」中，刪除 is 、the、that和to之後，仍然能傳遞相同的意思。用被刪除的單詞數與原文本的總單詞數之比來衡量文字中的冗餘度。用一本技術期刊中的文本來重複這一實驗。對於摘自不同**的文字，我們能否就其冗餘度做出定量論述？

答：在解決這個問題之前，我們要先搞清楚，所謂的冗餘度是什麼？那麼題目中說：用被刪除的單詞數與原文本的總單詞數之比來衡量文字中的冗餘度。那麼對於摘自不同**的文字，一些文字的出現的頻率是不一樣的，還有摘自來的文字，字數大部分情況是不一樣多的，有一些字可能會重複出現幾次或多次，也就是說，我們可以保證被刪除的單詞數目一樣，但是不能保證原文本的單詞數目一樣，所以得出來的冗餘度是不一致的。所以，對於摘自不同**的文字，我們不能就其冗餘度做出定量的論述。

三、參考書《資料壓縮導論（第4版）》p30

3、給定符號集a=,求以下條件下的一階熵：

（a）p(a1)=p(a2)=p(a3)=p(a4)=1/4

（b）p(a1)=1/2 , p(a2)=1/4 , p(a3)=p(a4)=1/8

（c）p(a1)=0.505 , p(a2)=1/4 , p(a3)=1/8 , p(a4)=0.12

解：（a）:由於p(a1)=p(a2)=p(a3)=p(a4)=1/4，所以

h=-1/4*4*log21/4

=- log21/4

= log24=2（bits）

（b）h= -（1/2*log21/2+1/4*log21/4+1/8*log21/8+1/8*log21/8）

=-1/2*log21/2-1/4*log21/4-1/8*log21/8-1/8*log21/8）

=1/2+1/2+3/8+3/8=7/4

（c）h=-（0.505*log20.505+1/4*log21/4+1/8*log21/8+0.12*log20.12）

=-0.505*log20.505-1/4*log21/4-1/8*log21/8-0.12*log20.12

=-0.505*log20.505+1/2+3/8-0.12*log20.12

4、考慮以下序列：

atgcttaacgtgcttaacctgaagcttccgctgaagaacctg

ctgaacccgcttaagcttaagctgaaccttctgaacctgctt

（a）根據此序列估計個概率值，並計算這一串行的一階、二階、

三階和四階熵。

（b）根據這些熵，能否推斷這個序列具有什麼樣的結構？

解：（a）總的有84個字母，a出現的次數為21次，c出現的次數為24，g出現的次數為16次，t出現的次數為23次，那麼

p（a）=21/84=1/4，p（c）=24/84=2/7，p（g）=16/84=4/21，

p（t）=23/84

h=-（1/4*log21/4+2/7*log22/7+4/21*log24/21+23/84*log223/84）

=-1/4*log21/4-2/7*log22/7-4/21*log24/21-23/84*log223/84

=2（bits）

（b）

第一次作業

第一次作業

第一次作業

第一次作業

相關推薦