資訊熵的公式的通俗理解

先丟擲資訊熵公式如下：

其中

代表隨機事件x為

的概率，下面來逐步介紹資訊熵的公式**！

資訊量是對資訊的度量，就跟時間的度量是秒一樣，當我們考慮乙個離散的隨機變數x的時候，當我們觀察到的這個變數的乙個具體值的時候，我們接收到了多少資訊呢？

多少資訊用資訊量來衡量，我們接受到的資訊量跟具體發生的事件有關。

資訊的大小跟隨機事件的概率有關。越小概率的事情發生了產生的資訊量越大，如湖南產生的**了；越大概率的事情發生了產生的資訊量越小，如太陽從東邊公升起來了（肯定發生嘛，沒什麼資訊量）。這很好理解！

腦補一下我們日常的對話：

師兄走過來跟我說，立波啊，今天你們湖南發生大**了。

我：啊，不可能吧，這麼重量級的新聞！湖南多低的概率發生**啊！師兄，你告訴我的這件事，資訊量巨大，我馬上打**問問父母什麼情況。

又來了乙個師妹：立波師兄，我發現了乙個重要情報額，原來德川師兄有女朋友額~德川比師妹早進一年實驗室，全實驗室同學都知道了這件事。我大笑一聲：哈哈哈哈，這件事大家都知道了，一點含金量都沒有，下次八卦一些其它有價值的新聞吧！orz，逃~

因此乙個具體事件的資訊量應該是隨著其發生概率而遞減的，且不能為負。

但是這個表示資訊量函式的形式怎麼找呢？

隨著概率增大而減少的函式形式太多了！不要著急，我們還有下面這條性質

h(x,y) = h(x) + h(y)

由於x，y是倆個不相關的事件，那麼滿足p(x,y) = p(x)*p(y).

根據上面推導，我們很容易看出h(x)一定與p(x)的對數有關（因為只有對數形式的真數相乘之後，能夠對應對數的相加形式，可以試試）。因此我們有資訊量公式如下：

下面解決倆個疑問？

（1）為什麼有乙個負號

其中，負號是為了確保資訊一定是正數或者是0，總不能為負數吧！

（2）為什麼底數為2

這是因為，我們只需要資訊量滿足低概率事件x對應於高的資訊量。那麼對數的選擇是任意的。我們只是遵循資訊理論的普遍傳統，使用2作為對數的底！

下面我們正式引出資訊熵。

資訊量度量的是乙個具體事件發生了所帶來的資訊，而熵則是在結果出來之前對可能產生的資訊量的期望——考慮該隨機變數的所有可能取值，即所有可能發生事件所帶來的資訊量的期望。即

轉換一下為：

最終我們的公式**推導完成了。

這裡我再說乙個對資訊熵的理解。資訊熵還可以作為乙個系統複雜程度的度量，如果系統越複雜，出現不同情況的種類越多，那麼他的資訊熵是比較大的。

如果乙個系統越簡單，出現情況種類很少（極端情況為1種情況，那麼對應概率為1，那麼對應的資訊熵為0），此時的資訊熵較小。

這也就是我理解的資訊熵全部想法，希望大家指錯交流。也希望對大家理解有幫助~