機器學習1 資訊熵

2021-07-03 20:54:44 字數 1440 閱讀 8774

1.在資訊理論中,熵被用來衡量乙個隨機變數出現的期望值。它代表了在被接收之前,訊號傳輸過程中損失的資訊量,又被稱為資訊熵。資訊熵也稱信源熵、平均自資訊量。
2.從直觀上說,資訊熵越大,變數包含的資訊量越大,變數的不確定性也越大。乙個事物內部會存在隨機性,也就是不確定性,而從外部消除這個不確定性唯一的辦法是引入資訊。如果沒有資訊,任何公式或者數字的遊戲都無法排除不確定性。幾乎所有的自然語言處理,資訊與訊號處理的應用都是乙個消除不確定性的過程。

3.

在資訊理論

中,是接收的每條訊息中包含的資訊的平均量,又被稱為資訊熵信源熵平均自資訊量。這裡, 

訊息代表來自分布或資料流中的事件、樣本或特徵。(熵最好理解為不確定性的量度而不是確定性的量度,因為越隨機的信源的熵越大。)來自信源的另乙個特徵是樣本的概率分布。這裡的想法是,比較不可能發生的事情,當它發生了,會提供更多的

資訊。由於一些其他的原因(下面會有解釋),把資訊(熵)定義為概率分布的對數的相反數是有道理的。事件的概率分布和每個事件的資訊量構成了乙個隨機變數,這個隨機變數的均值(即

期望)就是這個分布產生的資訊量的平均值(即熵)。熵的單位通常為位元,但也用sh、nat、hart計量,取決於定義用到對數的底。

4.夏農把隨機變數

x的熵值 η(希臘字母eta)定義如下,其值域為 :  

其中, p 為 

x的概率質量函式(probability mass function),e 為期望函  

數,而 i(x) 是 

x的資訊量(又稱為自資訊)。i(x) 本身是個隨機變數。

當取自有限的樣本時,熵的公式可以表示為: 

在這裡 

b是對數所使用的底,通常是 2, 自然常數 

e,或是10。當b

= 2,熵的單  

位是bit;當b

= e,熵的單位是 

nat;而當 

b= 10,熵的單位是 hart。

pi = 0時,對於一些i值,對應的被加數0 logb

0的值將會是0,這與極限一致。

還可以定義事件 x與 

y分別取 

xi 和 

yj 時的條件熵為

其中 p(xi

, yj

) 為 x= 

xi 且 y= 

yj 時的概率。這個量應當理解為你知道 

y的值  

前提下隨機變數 

x的隨機性的量。

例子如下:

如果有乙個系統s內存在多個事件s = ,每個事件的概率分布 p = ,則每個事件本身的訊息(自資訊)為:

如英語有26個字母,假如每個字母在文章中出現次數平均的話,每個字母的訊息量  為:

而漢字常用的有2500個,假如每個漢字在文章中出現次數平均的話,每個漢字的信  

息量為:

機器學習筆記 資訊熵

機器學習筆記 knn 機器學習筆記 決策樹 機器學習筆記 邏輯回歸 機器學習筆記 資訊熵 資訊的大小跟隨機事件的概率有關 越小概率的事情發生了產生的資訊量越大 目睹飛碟 越大概率的事情發生了產生的資訊量越小 太陽東昇西落 因此乙個具體事件的資訊量應該是隨著其發生概率而遞減的,且不能為負。而資訊熵則是...

機器學習之資訊熵

資訊熵的公式 先丟擲資訊熵公式如下 其中 p xi 代表隨機事件x為 xi的概率,下面來逐步介紹資訊熵的公式 資訊量是對資訊的度量,就跟時間的度量是秒一樣,當我們考慮乙個離散的隨機變數x的時候,當我們觀察到的這個變數的乙個具體值的時候,我們接收到了多少資訊呢?多少資訊用資訊量來衡量,我們接受到的資訊...

機器學習 資訊熵 資訊增益的概念

資訊熵表示 隨機變數 的不確定性。不確定性越大 即所謂的資訊量越大 資訊熵越大。首先從直覺上來講,是可以的。不然我們怎麼覺得有的人廢話特別多,卻沒什麼資訊量 而有的人一語中的,一句話就傳達了很大的資訊量。有些事情本來不是很確定 例如 明天 是漲是跌 1 明天nba決賽開始了 和 跌漲 沒關係,所以 ...