資訊熵，交叉熵，KL散度，JS散度之間的關係

（1）資訊熵介紹：

對於連續型隨機變數，假設p為隨機變數x的概率分布，則p(x)為隨機變數x在x = x處的概率，隨機變數x在x處的夏農資訊量為：

夏農資訊量用於刻畫消除隨機變數x在x處的不確定性所需的資訊量的大小。很容易看到：當 x = x 的概率 p (x) 比較大時，就代表此事發生的概率比較大，不確定性因素小，從而 f (p) 會比較小。如隨機事件「買了彩票卻沒中獎」發生的概率比較大，不需要多少資訊量就可以消除不確定性，因此該隨機事件的夏農資訊量就少。

而資訊熵h(p) 是夏農資訊量 -logp(x) 的數學期望，即所有 x= x 處的夏農資訊量的和，由於每乙個x的出現概率不一樣（用概率密度函式值p(x)衡量），需要用p(x) 加權求和。因此資訊熵是用於刻畫消除隨機變數x的不確定性所需要的總體資訊量的大小。

其數學定義如下：

（2）下面這篇部落格介紹了交叉熵，kl散度，js散度以及它們之間的關係，寫得很直白（補充：其中的h（x）為資訊熵）結合來看，應該對這幾者之間的關係就明確了

資訊熵，交叉熵，KL散度，JS散度之間的關係

交叉熵 K L散度

1 資訊熵交叉熵 KL散度

熵，交叉熵，相對熵（KL散度）

資訊熵，交叉熵，KL散度，JS散度之間的關係

交叉熵 K L散度

1 資訊熵 交叉熵 KL散度

熵，交叉熵，相對熵（KL散度）

相關推薦

1 資訊熵交叉熵 KL散度