第一次作業

2022-09-02 01:39:08 字數 3813 閱讀 4837

1-1資料壓縮的乙個基本問題是「我們要壓縮什麼」,對此你是怎樣理解的?

答:我們要壓縮的壓縮物件為訊號空間,指:物理空間,時間區間,電磁頻段,也就是某訊號集合所佔的空域,時域和頻域空間。

1-2資料壓縮的另乙個基本問題是「為什麼進行壓縮」,對此你又是怎樣理解的?

1-6資料壓縮是如何分類的?

答:資料壓縮分為可逆壓縮(冗餘度壓縮、熵編碼)和不可逆壓縮(熵壓縮)。而可逆壓縮包括統計編碼和其他編碼。不可逆壓縮又包括特徵抽取和量化兩大類。

1.4 專案與習題

1.  用你的計算機上的壓縮工具來壓縮不同檔案。研究原檔案的大小和型別對於壓縮檔案與原檔案大小之比的影響。

答:從多次壓縮檔案的經驗來看,得出:壓縮檔案比原檔案要小,但原檔案越大,壓縮後的檔案也大,除了檔案本身大小,檔案型別對壓縮後的檔案大小影響更大,對於不同型別的檔案,壓縮時涉及到有失真壓縮和無失真壓縮,有失真壓縮後的檔案明顯變小,與原檔案的大小比更大,同理,無失真壓縮就小。

2. 從一本通俗雜誌中摘錄幾段文字,並刪除所有不會影響理解的文字,實現壓縮。例如,在"this is the dog that belong to my friend」  中,刪除 is 、the、that和to之後,仍然能傳遞相同的意思。用被刪除的單詞數與原文本的總單詞數之比來衡量文字中的冗餘度。用一本技術期刊中的文本來重複這一實驗。對於摘自不同**的文字,我們能否就其冗餘度做出定量論述?

答: 冗餘度它表徵信源資訊率的多餘程度,是描述信源客觀統計特性的乙個物理量。也就是說刪除多餘的乙個量,它不會影響整個資料的完整性。 正由於信源(資料)存在著冗餘度,既存在著不必要傳送的資訊,因此信源也就存在進一步壓縮資訊率的可能性。冗餘度越大,壓縮潛力也就越大。就仙儂資訊理論來說資料=資訊+冗餘度。對於摘自不同**的文字,根據冗餘度的不同,就能做出定量分析。

三、參考書《資料壓縮導論(第4版)》page 30

3、給定符號集a=,求一下條件下的一階熵:

(a)p(a1)=p(a2)=p(a3)=p(a4)=1/4

(b)p(a1)=1/2 , p(a2)=1/4 , p(a3)=p(a4)=1/8 

(c)p(a1)=0.505 ,  p(a2)=1/4 , p(a3)=1/4 , p(a4)=0.12 

解:(a)(-1/4)*4*log2(1/4)=2bit

(b)(-1/2)*log2(1/2)+(-1/4)log2(1/4)+(-1/8)*2*log2(1/8)=1.75bit

(c)(-0.505)*log2(0.505)+(-1/4)*log2(1/4)+(-1/4)*log2(1/4)+(-0.12)*log2(0.12)

=1.2967-0.12*log20.12  bit

5、考慮以下序列:

atgcttaacgtgcttaacctgaagcttccgctgaagaacctg

ctgaacccgcttaagcttaagctgaaccttctgaacctgctt

(a)根據此序列估計各概率值,並計算這一串行的一階、二階、三階和四階熵。

(b)根據這些熵,能否推斷此序列具有什麼樣的結構?

答(a):a的頻數是:21 t的頻數是:23 g的頻數是:16 c的頻數是:24

他們對應的概率分別為: p(a)=1/4 p(t)=23/84 p(g)=4/21 p(c)=2/7.

一階熵為:

-1/4*log2(1/4)-23/84*log2(23/84)-4/21*log2(4/21)-2/7*log2(2/7)

=0.5+0.512+0.457+0.514

=1.983(bit)

二階熵為:

at,gc,tt,aa,cg,tg,ct,ta,ac,ct,ga,ag,ct,tc,cg,ct,ga,ag,aa,cc,tg

ct,ga,ac,cc,gc,tt,aa,gc,tt,aa,gc,tg,aa,cc,tt,ct,ga,ac,ct,gc,tt

at的頻數是:1 gc的頻數是:5 tt的頻數是:5 aa的頻數是:5 cg的頻數是:2 tg的頻數是:3

ta的頻數是:1 ac的頻數是:4 ag的頻數是:2 tc的頻數是:1 cc的頻數是:3 ct的頻數是:7

p(at)=1/42,p(gc)=5/42,p(tt)=5/42,p(aa)=5/42,p(cg)=1/21,p(tg)=1/14,p(ct)=7/42,p(ta)=1/42,

p(ac)=1/14,p(ga)=2/21,p(ag)=1/21,p(tc)=1/42,p(cc)=1/14

-1/42*log2(1/42)*4-5/42*log2(5/42)*3-1/21*log2(1/21)*2-1/14*log2(1/14)*3-2/21*log2(2/21)-7/42*log2(7/42)

=0.51+1.096+0.627+0.544+0.323+0.43

=3.530(bit)

三階熵為:

atg,ctt,aac,gtg,ctt,aac,ctg,aag,ctt,ccg,ctg,aag,aac,ctg

ctg,aac,ccg,ctt,aag,ctt,aag,ctg,aac,ctt,ctg,aac,ctg,ctt

atg的頻數是:1 ctt的頻數是:7 aac的頻數是:6 gtg的頻數是:1 ctg的頻數是:7 aag的頻數是:4 aag的頻數是:2

p(atg)=1/28,p(ctt)=7/28,p(aac)=3/14,p(gtg)=1/28,p(ctg)=1/4,p(aag)=1/7,p(ccg)=1/14

-1/28*log2(1/28)*2-1/4*log2(1/4)*2-3/14*log2(3/14) -1/7*log2(1/7) -1/14*log2(1/14)

=0.343+1+0.476+0.401+0.271

=2.491(bit)

四階熵為:

atgc,ttaa,cgtg,ctta,acct,gaag,cttc,cgct,gaag,aacc,tgct

gaac,ccgc,ttaa,gctt,aagc,tgaa,cctt,ctga,acct,gctt

atgc的頻數是:1 ttaa的頻數是:2 cgtg的頻數是:1 ctta的頻數是:1 acct的頻數是:2 gaag的頻數是:2 cttc的頻數是:1 cgct的頻數是:1 aacc的頻數是:1 tgct的頻數是:1

gaac的頻數是:1 gctt的頻數是:2 aagc的頻數是:1 tgaa的頻數是:1 cctt的頻數是:1 ctga的頻數是:1 

p(atgc)=1/21,p(ttaa)=2/21,p(cgtg)=1/21,p(ctta)=1/21,p(acct)=2/21,p(gaag)=2/21,p(cttc)=1/21,p(cgct)=1/21,p(aacc)=1/21,p(tgct)=1/21,p(gaac)=1/21,p(ccgc)=1/21,p(gctt)=2/21,p(aagc)=1/21,p(tgaa)=1/21,p(cctt)=1/21,p(ctga)=1/21.

-1/21*log2(1/21)*13-2/21*log2(2/21)*4

=2.718+1.292

=4.01(bit)

答(b):序列的結構:根據熵的比較,我們可以看出,隨著熵的階數不斷增加,熵也不斷增大,相應階數字母組合出現的概率就越低。根據上的含義,其包含的資訊量就越少。相反,隨著熵的階數的減小,熵也不斷的減小,相應階數字母組合出現的概率就越高,其包含的資訊量就越多。

7、做乙個實驗,看看乙個模型能夠多麼準確地描述乙個信源。

(a)編寫一段程式,從包括26個字母的符號集中隨機選擇字母,組成100個四字母單詞,這些單詞中有多少是有意義的?

#include#include 

#include

intmain()

} for( i=1;i<=100;i++)

printf("\t

");}

return0;

}

第一次作業

1.用較低的成本,開發出滿足客戶需求的軟體,開發的軟體可靠性高,易於維護和移植 2.分為設計階段,開發階段和測試執行階段 1 設計階段 分析客戶需求,明確要解決哪些問題,實現哪些功能,以及確定基本方法 2 開發階段 a.概要設計 畫出流程圖,進行模組化劃分,建立模組的層次結構以及呼叫關係 b.詳細設...

第一次作業

1.4 非計算機專業 程式和軟體有何不同?答 程式是通過計算機語言寫出來的具有許多演算法的摸板,是實現軟體功能的底層推手 推手的意思可以理解為動力 所以,程式是軟體的內在因子,而軟體是乙個或多個程式通過編譯器編譯出來的成品。1.3 查詢資料,解釋什麼是圖靈測試?答 指測試者與被測試者 乙個人和一台機...

第一次作業

1.解釋什麼是圖靈測試?圖靈測試 又稱 圖靈判斷 是圖靈提出的乙個關於機械人的著名判斷原則。一種測試機器是不是具備人類智慧型的方法。如果說現在有一台電腦,其運算速度非常快 記億容量和邏揖單元的數目也超過了人腦,而且還為這台電腦編寫了許多智慧型化的程式,並提供了合適種類的大量資料,使這台電腦能夠做一些...