通過示例總結條件熵交叉熵相對熵互資訊

h(y|x)表示在已知隨機變數x的條件下，隨機變數y的不確定性，h(y|x)定義為：

舉個例子：有一堆西瓜，已知這堆西瓜的色澤，以及每種色澤對應好瓜和壞瓜的個數，如下所示，設x表示色澤，y表示好瓜或者壞瓜。

則：這個例子就是計算條件熵的乙個過程，現在證明條件熵公式：

有很多書上的條件熵是這麼定義的，如果繼續化簡就可以得到我們上面定義的條件熵，接著化簡：

得證！，表示x出現後隨機變數y的不確定性減少了多少。

比如上述西瓜的例中，當不知道色澤的時候，好瓜與壞瓜的不確定度為：

當知道色澤之後，好瓜與壞瓜的不確定度為：

那麼知道色澤之後，好瓜與壞瓜的不確定度減少了：

假設有這樣乙個樣本集，p為它的真實分布，q為它的估計分布。如果按照真實分布p來度量識別乙個樣本所需要的編碼長度的期望為：（如果對編碼長度不了解的，請看：

如果使用估計的分布q來表示來自真實分布p的平均編碼長度，則：

因為我們編碼的樣本來自於真實的分布p，所以乘的是真實概率。在影象分類的時候，比如softmax分類器，在訓練的時候，我們已經給定影象的標籤，所以這個時候每幅的真實概率就是1，這個時候的損失函式就是：

怎麼理解呢？就是讓**的概率值越來越接近於1！（想多了解softmax，請參考

舉個知乎上的例子，有4個字母(a,b,c,d)的資料集中，真實分布p=(1/2, 1/2, 0, 0)，即a和b出現的概率均為1/2，c和d出現的概率都為0，

真實分布的編碼長度（最優編碼長度）

也就是說，我們僅僅需要一位編碼就可以確定所要傳送的資料是什麼。那麼假如我們的估計分布如下：

那麼傳送資料的平均編碼長度為：

即為了確定所傳送的資料，平均需要長度2編碼，才可以。交叉熵可以這麼理解:用估計的分布對來自真實分布的樣本進行編碼，所需要的平均長度。

根據gibbs' inequality可知交叉熵要大於等於真實分布的資訊熵（最優編碼）。gibbs' inequality如下：

對於樣本服從分布

,對於其他任何概率分布

，都有：

當且僅當

時，等號成立。

由交叉熵可知，用估計的概率分布所需的編碼長度，比真實分布的編碼長，但是長多少呢？這個就需要另乙個度量，相對熵，也稱kl散度。

相對熵：用交叉熵減去真實分布的資訊熵，表示用估計分布計算的平均編碼長度比最短平均編碼長度長多少。因此有：

交叉熵=資訊熵+相對熵

由於對數函式時凸函式，則有：

因此，相對熵始終是大於等於0的。從上面的描述中也可以看得出，相對熵其實可以理解成兩種分布的距離。

兩個隨機變數x,y的互資訊，定義為：x,y的聯合分布p(x,y)與乘積分布p(x)p(y)的相對熵：

怎麼理解呢？也就是用乘積分布p(x)p(y)的交叉熵，減去聯合分布的資訊熵，就是互資訊，還不好理解，就可以看如下圖示：

相當於一種不嚴謹的說法就是：

或許另一種等價的定義好理解：

其實兩種定義是等價的：

通過示例總結條件熵交叉熵相對熵互資訊

h y x 表示在已知隨機變數x的條件下，隨機變數y的不確定性，h y x 定義為舉個例子有一堆西瓜，已知這堆西瓜的色澤，以及每種色澤對應好瓜和壞瓜的個數，如下所示，設x表示色澤，y表示好瓜或者壞瓜。則這個例子就是計算條件熵的乙個過程，現在證明條件熵公式有很多書上的條件熵是這麼定義的，如果繼...

資訊熵，交叉熵和相對熵

怎樣去量化資訊？一些大牛對某些問題的見解，我們會說乾貨滿滿，就代表這個見解具有很大的資訊。對於一些不太確定的事，比如一場足球比賽的結果，會有勝平負三種情況，有不確定的情況，但如果某人有直接的內幕訊息，說這場主隊穩輸，因為這樣的乙個資訊就具有很大的資訊量了，因為不確定的事情變得十分確定。如果有人告訴...

熵相對熵交叉熵等理解

假設我們聽到了兩件事，分別如下事件a 巴西隊進入了2018世界盃決賽圈。事件b 中國隊進入了2018世界盃決賽圈。僅憑直覺來說，顯而易見事件b的資訊量比事件a的資訊量要大。究其原因，是因為事件a發生的概率很大，事件b發生的概率很小。所以當越不可能的事件發生了，我們獲取到的資訊量就越大。越可能發生的...

通過示例總結條件熵 交叉熵 相對熵 互資訊

通過示例總結條件熵 交叉熵 相對熵 互資訊

資訊熵，交叉熵和相對熵

熵 相對熵 交叉熵等理解

相關推薦

通過示例總結條件熵交叉熵相對熵互資訊

通過示例總結條件熵交叉熵相對熵互資訊

熵相對熵交叉熵等理解