詳解機器學習中的熵 聯合熵 條件熵 相對熵和交叉熵

2022-07-22 15:42:22 字數 381 閱讀 2492

4、相對熵 (relative entropy),也稱kl散度 (kullback–leibler divergence)

5、交叉熵 (cross entropy)

但是真實分布不可知,假設訓練資料是從真實資料中獨立同分布取樣的,p(train)≃p(real)

因此,我們希望學到的模型分布至少和訓練資料的分布一致,p(train)≃p(model)

6、總結

相對熵可以用來衡量兩個概率分布之間的差異。

交叉熵可以來衡量在給定的真實分布下,使用非真實分布所指定的策略消除系統的不確定性所需要付出的努力的大小。

相對熵是指用 q 來表示分布 p  額外需要的編碼長度。

交叉熵是指用分布 q 來表示本來表示分布 p 的平均編碼長度。

機器學習 熵

1.為何總結 這週三開組會,師兄所做報告的公式中涉及熵的概念。老闆一句話從直覺意義上解釋熵 離散分布中,能量僅僅集中在少數點上,熵就低。2.熵的物理意義 1 化學及熱力學 當總體的熵增加,其做功能力也下降,熵的量度正是能量退化的指標。熵亦被用於計算乙個系統中的失序現象,也就是計算該系統混亂的程度。2...

機器學習 什麼是條件熵?

通俗理解條件熵 前面我們總結了資訊熵的概念通俗理解資訊熵 知乎專欄,這次我們來理解一下條件熵。我們首先知道資訊熵是考慮該隨機變數的所有可能取值,即所有可能發生事件所帶來的資訊量的期望。公式如下 我們的條件熵的定義是 定義為x給定條件下,y的條件概率分布的熵對x的數學期望 這個還是比較抽象,下面我們解...

機器學習 一文理清資訊熵,相對熵,交叉熵

夏農提出資訊熵主要是用來解決對資訊的量化度量問題,比如說存在選項 a,b,c,d 若每個字母都用8位ascii碼儲存,則表示這個四個選項需要32位bit。如果此時採用二進位制的話,4個選項用2位bit便可表示 00,01,10,11 於是對4個選項資訊進行量化為log 2 4 2 2 4 2 log...