交叉熵 vs KL散度

交叉熵和kl散度

資訊熵h(x)可以看做，對x中的樣本進行編碼所需要的編碼長度的期望值。

這裡可以引申出交叉熵的理解，現在有兩個分布，真實分布p和非真實分布q，我們的樣本來自真實分布p。

按照真實分布p來編碼樣本所需的編碼長度的期望為資訊熵h( p )

按照不真實分布q來編碼樣本所需的編碼長度的期望為交叉熵h( p,q )

這裡引申出kl散度d(p||q)= h(p,q) - h(p) =相對熵，它表示兩個分布的差異，差異越大，相對熵越大。

機器學習中，我們用非真實分布q去**真實分布p，因為真實分布p是固定的，d(p||q) = h(p,q) - h(p) 中 h(p) 固定，也就是說交叉熵h(p,q)越大，相對熵d(p||q)越大，兩個分布的差異越大。

所以交叉熵用來做損失函式就是這個道理，它衡量了真實分布和**分布的差異性。

交叉熵 K L散度

資訊理論主要研究如何量化資料中的資訊。最重要的資訊度量單位是熵entropy，一般用h hh表示。分布的熵的公式如下 h i 1 np x i log p xi h sum p left x right cdot log p left x right h i 1 n p xi logp x i ex...

熵，交叉熵，相對熵（KL散度）

先插入乙個鏈結視覺化資訊理論，簡單明瞭很容易看懂資訊熵是度量隨機變數不確定度的指標，資訊熵越大意味著隨機變數不確定度越高，意味著系統的有序程度越低。他的定義如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...

熵，交叉熵，相對熵（KL散度）

參考一什麼是資訊？1.夏農對資訊的解釋資訊是事物運動狀態或存在方式的不確定性的描述。2.何為資訊？什麼能提供資訊？我將你原來不知道的結果告訴你，就是提供了資訊。3.如何衡量資訊量的大小？事件發生的概率越小，此事件含有的資訊量就越大。我向你提供的資訊量大小，就是你事先不知道結果的程度！也即是資訊...

交叉熵 vs KL散度

交叉熵 K L散度

熵，交叉熵，相對熵（KL散度）

熵，交叉熵，相對熵（KL散度）

相關推薦