熵與交叉熵

針對引文中的問題：如果乙個字出現的頻率為yi

，則該字所使用的編碼bit數為lo

g1yi

。如果整段文字的概率分布都已知，那我們可以得出編碼乙個字所需的最優bit數：h(

y)=∑

iyil

og1y

i ，其中h(

y)就是熵

如果我們已知的是乙個錯誤的分布，並且使用該分布確定的編碼bit數，稱為交叉熵h(

y)=∑

iyil

og1y

i∗交叉熵總是比熵大

kl散度用於衡量熵與交叉熵的差異kl

(y||

y∗)=

∑iyi

log1yi

∗−∑i

yilog1yi

kl散度也可以用來衡量兩個分布之間的差異，但是kl散度是非對稱的

可以直接將kl散度作為損失函式。但交叉熵與kl散度之間的差異就是−∑

iyilog1y

i 而這部分與**值並無關係，故實際中往往將交叉熵作為損失函式

資訊熵，交叉熵和相對熵

怎樣去量化資訊？一些大牛對某些問題的見解，我們會說乾貨滿滿，就代表這個見解具有很大的資訊。對於一些不太確定的事，比如一場足球比賽的結果，會有勝平負三種情況，有不確定的情況，但如果某人有直接的內幕訊息，說這場主隊穩輸，因為這樣的乙個資訊就具有很大的資訊量了，因為不確定的事情變得十分確定。如果有人告訴...

熵相對熵交叉熵等理解

假設我們聽到了兩件事，分別如下事件a 巴西隊進入了2018世界盃決賽圈。事件b 中國隊進入了2018世界盃決賽圈。僅憑直覺來說，顯而易見事件b的資訊量比事件a的資訊量要大。究其原因，是因為事件a發生的概率很大，事件b發生的概率很小。所以當越不可能的事件發生了，我們獲取到的資訊量就越大。越可能發生的...

10 資訊熵與交叉熵推導

人們常常說資訊很多，或者資訊較少，但卻很難說清楚資訊到底有多少。比如一本五十萬字的中文書到底有多少資訊量，夏農資訊理論之父提出了資訊熵的概念，資訊熵用來描述信源的不確定度，熵在資訊理論中代表隨機變數不確定度的度量。熵越大，資料的不確定性越高，熵越小，資料的不確定性約低當得知乙個特徵條件之後...

熵與交叉熵

資訊熵，交叉熵和相對熵

熵 相對熵 交叉熵等理解

10 資訊熵與交叉熵推導

相關推薦

熵相對熵交叉熵等理解