資訊熵，交叉熵和相對熵

怎樣去量化資訊？

一些大牛對某些問題的見解，我們會說乾貨滿滿，就代表這個見解具有很大的資訊。

對於一些不太確定的事，比如一場足球比賽的結果，會有勝平負三種情況，有不確定的情況，但如果某人有直接的內幕訊息，說這場主隊穩輸，因為…這樣的乙個資訊就具有很大的資訊量了，因為不確定的事情變得十分確定。如果有人告訴你，太陽會從東方公升起，因為這是乙個確定的事情，所以結果是確定的，那麼這句話是沒有資訊量的。

所以可以說資訊量的大小跟事情的不確定性的變化有關。

乙個事件的資訊量可以看成是這個事件發生的概率的負對數log(1/p)。如果該事件發生概率為1，比如太陽從東方公升起，那麼這個資訊量為0；若某一事件發生概率很小，突然有人告訴你，這件事馬上會發生，那麼這句話就包含了非常大的資訊量。

可以看到資訊量有幾個性質：

1.單調性；

2.非負性：概率p在0到1之間，所以資訊量非負；

3.可加性：-log(x*y) = -log(x)-log(y)

資訊熵是資訊量的期望，就是平均而言發生乙個事件我們得到資訊量的大小：

交叉熵常用於深度學習的損失函式。假設訓練樣本的真實概率分布為p，**概率分布為q，那麼交叉熵為：

假設真實分布為（1/2， 1/4， 1/8， 1/8），**分布為（1/4， 1/4， 1/4， 1/4），則：

資訊熵為(1/2)*log(2) + (1/4)*log(4) + (1/8)*log(8) + (1/8)*log(8) = 1.75

交叉熵為(1/2)*log(4) + (1/4)*log(4) + (1/8)*log(4) + (1/8)*log(4) = 2

可見交叉熵永遠是大於等於資訊熵的，最小化交叉熵就能向最優策略逼近。

交叉熵是用來衡量在給定的真實分布下，使用非真實分布所指定的策略消除系統的不確定性所需要付出的努力的大小。

那麼怎樣去衡量不同策略之間的差異呢？

就有了相對熵，又叫kl散度，它是用來衡量兩個取值為正的函式或概率分布之間的差異，差異越大則相對熵越大，差異越小則相對熵越小。

相對熵 = 某個策略的交叉熵 - 資訊熵：

上乙個例子相對熵為(1/2)*log(2) + (1/4)*log(1) + (1/8)*log(1/2) + (1/8)*log(1/2) = 0.25 = 2 - 1.75

資訊熵，交叉熵和相對熵

資訊量資訊熵交叉熵相對熵

資訊量資訊熵相對熵交叉熵

熵相對熵交叉熵等理解

資訊熵，交叉熵和相對熵

資訊量 資訊熵 交叉熵 相對熵

資訊量 資訊熵 相對熵 交叉熵

熵 相對熵 交叉熵等理解

相關推薦

資訊量資訊熵交叉熵相對熵

資訊量資訊熵相對熵交叉熵

熵相對熵交叉熵等理解