機器學習1 資訊熵

1.在資訊理論中，熵被用來衡量乙個隨機變數出現的期望值。它代表了在被接收之前，訊號傳輸過程中損失的資訊量，又被稱為資訊熵。資訊熵也稱信源熵、平均自資訊量。

2.從直觀上說，資訊熵越大，變數包含的資訊量越大，變數的不確定性也越大。乙個事物內部會存在隨機性，也就是不確定性，而從外部消除這個不確定性唯一的辦法是引入資訊。如果沒有資訊，任何公式或者數字的遊戲都無法排除不確定性。幾乎所有的自然語言處理，資訊與訊號處理的應用都是乙個消除不確定性的過程。

在資訊理論

中，熵是接收的每條訊息中包含的資訊的平均量，又被稱為資訊熵、信源熵、平均自資訊量。這裡，

訊息代表來自分布或資料流中的事件、樣本或特徵。（熵最好理解為不確定性的量度而不是確定性的量度，因為越隨機的信源的熵越大。）來自信源的另乙個特徵是樣本的概率分布。這裡的想法是，比較不可能發生的事情，當它發生了，會提供更多的

資訊。由於一些其他的原因（下面會有解釋），把資訊（熵）定義為概率分布的對數的相反數是有道理的。事件的概率分布和每個事件的資訊量構成了乙個隨機變數，這個隨機變數的均值（即

期望）就是這個分布產生的資訊量的平均值（即熵）。熵的單位通常為位元，但也用sh、nat、hart計量，取決於定義用到對數的底。

4.夏農把隨機變數

x的熵值 η（希臘字母eta）定義如下，其值域為：

其中， p 為

x的概率質量函式（probability mass function），e 為期望函

數，而 i(x) 是

x的資訊量（又稱為自資訊）。i(x) 本身是個隨機變數。

當取自有限的樣本時，熵的公式可以表示為：

在這裡

b是對數所使用的底，通常是 2, 自然常數

e，或是10。當b

= 2，熵的單

位是bit；當b

= e，熵的單位是

nat；而當

b= 10,熵的單位是 hart。

pi = 0時，對於一些i值，對應的被加數0 logb

0的值將會是0，這與極限一致。

還可以定義事件 x與

y分別取

xi 和

yj 時的條件熵為

其中 p(xi

, yj

) 為 x=

xi 且 y=

yj 時的概率。這個量應當理解為你知道

y的值

前提下隨機變數

x的隨機性的量。

例子如下：

如果有乙個系統s內存在多個事件s = ，每個事件的概率分布 p = ，則每個事件本身的訊息（自資訊）為：

如英語有26個字母，假如每個字母在文章中出現次數平均的話，每個字母的訊息量為：

而漢字常用的有2500個，假如每個漢字在文章中出現次數平均的話，每個漢字的信

息量為：

機器學習1 資訊熵

機器學習筆記資訊熵

機器學習之資訊熵

機器學習資訊熵資訊增益的概念

機器學習1 資訊熵

機器學習筆記 資訊熵

機器學習之資訊熵

機器學習 資訊熵 資訊增益的概念

相關推薦

機器學習筆記資訊熵

機器學習資訊熵資訊增益的概念