熵與資訊理論

假設任何檔案都可以被壓縮到

n 個二進位制位（bit），那麼其最多可以表示 2n

個不同的壓縮結果。也即，如果存在 2n

+1個檔案，根據鴿籠原理，必然至少有兩個檔案得到同一壓縮效果。這就意味著，這兩個檔案不可能都無損地還原。

因此，可以得出乙個相對抽象的結論，並非所有檔案都可以被壓縮到

n 個bit 位以內。

資料壓縮的原理，壓縮原理其實很簡單，本質上，所謂壓縮，就是找出檔案內容的概率分布（probability distribution），將那些出現概率高的部分代替成更短的形式。相應地，如果內容毫無重複，就很難壓縮。極端情況就是，遇到那些均勻分布的隨機字串，往往連乙個字元都壓縮不了。比如，任意排列的10個阿拉伯數字（5271839406），就是無法壓縮的；再比如，無理數（比如π）也很難壓縮

壓縮可以分解成兩個步驟（哈夫曼編碼）：

如果檔案內容只有兩種情況（1/5 vs 1/5比如扔硬幣的結果），那麼只要乙個二進位制位就夠了，1 表示正面，0表示表示負面。如果檔案內容包含三種情況（比如球賽的結果），那麼最少需要兩個二進位制位。如果檔案內容包含六種情況（比如扔篩子的結果），那麼最少需要三個二進位制位。

一般來說，在均勻分布的情況下，假定乙個字元（或字串）在檔案中出現的概率是 p，那麼在這個位置上最多可能出現 1/p 種情況。需要

log2(1

/p)個二進位制位表示替代符號。

這個結論可以推廣到一般情況。假定檔案有 n 個部分組成，每個部分的內容在檔案中的出現概率分別為 p1

,p2,

...,

pn，顯然有 ∑i

pi=1

。那麼，替代符號佔據的二進位制最少為下面這個式子。

log21/

p1+log21

/p2+

⋯+log21/

pn=∑

ilog2(

1/pn

) 對於兩個相等（

n ）的檔案，概率

p決定了這個式子的大小：

為了便於檔案之間的比較，將上式除以

n ，可以得到平均每個符號所占用的二進位制位：

∑log2(

1/pn

)/n進一步將其轉換（

p 是根據概率統計得到的）為：∑p

nlog2(

1/pn

)=e(

log21/

p)又可視為一種期望，可以理解為，每個符號所占用的二進位制位，等於概率倒數的對數的數學期望；

.5log2(

1/.5)

+.3log2(1

/.3)+

.2log2(

1/.2)

=1.485

10×.1log2(

1/.1)

=3.322

熵與資訊理論

TensorFlow 資訊理論資訊熵2

資訊理論中的各種熵

PRML學習筆記資訊理論與最大熵

熵與資訊理論

TensorFlow 資訊理論 資訊熵2

資訊理論中的各種熵

PRML學習筆記 資訊理論與最大熵

相關推薦

TensorFlow 資訊理論資訊熵2

PRML學習筆記資訊理論與最大熵