資訊熵,交叉熵,KL散度,JS散度之間的關係

2021-08-28 05:55:06 字數 577 閱讀 7291

(1)資訊熵介紹:

對於連續型隨機變數,假設p為隨機變數x的概率分布,則p(x)為隨機變數x在x = x處的概率,隨機變數x在x處的夏農資訊量為:

夏農資訊量用於刻畫消除隨機變數x在x處的不確定性所需的資訊量的大小。很容易看到:當 x = x 的概率 p (x) 比較大時,就代表此事發生的概率比較大,不確定性因素小,從而 f (p) 會比較小。如隨機事件「買了彩票卻沒中獎」 發生的概率比較大,不需要多少資訊量就可以消除不確定性,因此該隨機事件的夏農資訊量就少。

資訊熵h(p) 是夏農資訊量  -logp(x)  的數學期望,即所有 x= x 處的夏農資訊量的和,由於每乙個x的出現概率不一樣(用概率密度函式值p(x)衡量),需要用p(x) 加權求和。因此資訊熵是用於刻畫消除隨機變數x的不確定性所需要的總體資訊量的大小。

其數學定義如下:

(2)下面這篇部落格介紹了交叉熵,kl散度,js散度以及它們之間的關係,寫得很直白(補充:其中的h(x)為資訊熵)結合來看,應該對這幾者之間的關係就明確了

交叉熵 K L散度

資訊理論主要研究如何量化資料中的資訊。最重要的資訊度量單位是熵entropy,一般用h hh表示。分布的熵的公式如下 h i 1 np x i log p xi h sum p left x right cdot log p left x right h i 1 n p xi logp x i ex...

1 資訊熵 交叉熵 KL散度

資訊量介紹 當我們考慮乙個離散的隨機變數x的時候,當我們觀察到的這個變數的乙個具體值的時候,我們接收到了多少資訊呢?多少資訊用資訊量來衡量,我們接受到的資訊量跟具體發生的事件有關。資訊的大小跟隨機事件的概率有關。越小概率的事情發生了產生的資訊量越大,如湖南產生的 了 越大概率的事情發生了產生的資訊量...

熵,交叉熵,相對熵(KL散度)

先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂 資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義 如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...