為什麼交叉熵和KL散度在作為損失函式時是近似相等的

2022-09-20 13:45:14 字數 516 閱讀 7181

在本文中，我們將介紹熵、交叉熵和 kullback-leibler divergence [2] 的概念，並了解如何將它們近似為相等。

儘管最初的建議使用 kl 散度，但在構建生成對抗網路 [1] 時，在損失函式中使用交叉熵是一種常見的做法。這常常給該領域的新手造成混亂。當我們有多個概率分布並且我們想比較它們之間的關係時，熵和 kl 散度的概念就會發揮作用。

在這裡我們將要驗證為什麼最小化交叉熵而不是使用 kl 散度會得到相同的輸出。所以我們首先從正態分佈中抽取兩個概率分布 p 和 q。如圖 1 所示，兩種分布都不同，但是它們共享乙個事實，即兩者都是從正態分佈中取樣的。

熵是系統不確定性的度量。直觀地說它是從系統中消除不確定性所需的資訊量。系統各種狀態的概率分布 p 的熵可以計算如下：

交叉熵是指存在於兩個概率分布之間的資訊量。在這種情況下，分布 p 和 q 的交叉熵可以表述如下：

完整文章：

KL 散度和交叉熵

相對熵 relative entropy 就是 kl 散度 kullback leibler divergence 用於衡量兩個概率分布之間的差異。舉個例子假設我們發現了一些太空蠕蟲，這些太空蠕蟲的牙齒數量各不相同。現在我們需要將這些資訊發回地球。但從太空向地球傳送資訊的成本很高，所以我們需要用盡...

交叉熵 K L散度

資訊理論主要研究如何量化資料中的資訊。最重要的資訊度量單位是熵entropy，一般用h hh表示。分布的熵的公式如下 h i 1 np x i log p xi h sum p left x right cdot log p left x right h i 1 n p xi logp x i ex...

熵，交叉熵，相對熵（KL散度）

先插入乙個鏈結視覺化資訊理論，簡單明瞭很容易看懂資訊熵是度量隨機變數不確定度的指標，資訊熵越大意味著隨機變數不確定度越高，意味著系統的有序程度越低。他的定義如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...