機器學習 什麼是條件熵?

2021-10-22 06:49:35 字數 1957 閱讀 5259

**:通俗理解條件熵

前面我們總結了資訊熵的概念通俗理解資訊熵 - 知乎專欄,這次我們來理解一下條件熵。

我們首先知道資訊熵是考慮該隨機變數的所有可能取值,即所有可能發生事件所帶來的資訊量的期望。公式如下:

我們的條件熵的定義是:定義為x給定條件下,y的條件概率分布的熵對x的數學期望

這個還是比較抽象,下面我們解釋一下:

設有隨機變數(x,y),其聯合概率分布為

條件熵h(y|x)表示在已知隨機變數x的條件下隨機變數y的不確定性。隨機變數x給定的條件下隨機變數y的條件熵h(y|x)

下面推導一下條件熵的公式:

注意,這個條件熵,是指在給定某個數(某個變數為某個值)的情況下,另乙個變數的熵是多少,變數的不確定性是多少?

因為條件熵中x也是乙個變數,意思是在乙個變數x的條件下(變數x的每個值都會取),另乙個變數y熵對x的期望。

這是最容易錯的!

下面通過例子來解釋一下:

假如我們有上面資料:

設隨機變數y=

我們可以統計出,嫁的個數為6/12 = 1/2

不嫁的個數為6/12 = 1/2

那麼y的熵,根據熵的公式來算,可以得到h(y) = -1/2log1/2 -1/2log1/2

為了引出條件熵,我們現在還有乙個變數x,代表長相是帥還是不帥,當長相是不帥的時候,統計如下紅色所示:

可以得出,當已知不帥的條件下,滿足條件的只有4個資料了,這四個資料中,不嫁的個數為1個,佔1/4

嫁的個數為3個,佔3/4

那麼此時的h(y|x = 不帥) = -1/4log1/4-3/4log3/4

p(x = 不帥) = 4/12 = 1/3

同理我們可以得到:

當已知帥的條件下,滿足條件的有8個資料了,這八個資料中,不嫁的個數為5個,佔5/8

嫁的個數為3個,佔3/8

那麼此時的h(y|x = 帥) = -5/8log5/8-3/8log3/8

p(x = 帥) = 8/12 = 2/3

有了上面的鋪墊之後,我們終於可以計算我們的條件熵了,我們現在需要求:

h(y|x = 長相)

也就是說,我們想要求出當已知長相的條件下的條件熵。

根據公式我們可以知道,長相可以取帥與不帥倆種

條件熵是另乙個變數y熵對x(條件)的期望。

公式為:

h(y|x=長相) = p(x =帥)*h(y|x=帥)+p(x =不帥)*h(y|x=不帥)

然後將上面已經求得的答案帶入即可求出條件熵!

這裡比較容易錯誤就是忽略了x也是可以取多個值,然後對其求期望!!

**:通俗理解條件熵

詳解機器學習中的熵 聯合熵 條件熵 相對熵和交叉熵

4 相對熵 relative entropy 也稱kl散度 kullback leibler divergence 5 交叉熵 cross entropy 但是真實分布不可知,假設訓練資料是從真實資料中獨立同分布取樣的,p train p real 因此,我們希望學到的模型分布至少和訓練資料的分布一...

機器學習 熵

1.為何總結 這週三開組會,師兄所做報告的公式中涉及熵的概念。老闆一句話從直覺意義上解釋熵 離散分布中,能量僅僅集中在少數點上,熵就低。2.熵的物理意義 1 化學及熱力學 當總體的熵增加,其做功能力也下降,熵的量度正是能量退化的指標。熵亦被用於計算乙個系統中的失序現象,也就是計算該系統混亂的程度。2...

什麼是機器學習

機器學習 machine learning 是研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心,是使計算機具有智慧型的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納 綜合而不是演譯。學習能力是智慧型行為的乙個非常重...