資訊熵,交叉熵和相對熵

2021-09-01 08:49:21 字數 1201 閱讀 6515

怎樣去量化資訊?

一些大牛對某些問題的見解,我們會說乾貨滿滿,就代表這個見解具有很大的資訊。

對於一些不太確定的事,比如一場足球比賽的結果,會有勝平負三種情況,有不確定的情況,但如果某人有直接的內幕訊息,說這場主隊穩輸,因為…這樣的乙個資訊就具有很大的資訊量了,因為不確定的事情變得十分確定。如果有人告訴你,太陽會從東方公升起,因為這是乙個確定的事情,所以結果是確定的,那麼這句話是沒有資訊量的。

所以可以說資訊量的大小跟事情的不確定性的變化有關。

乙個事件的資訊量可以看成是這個事件發生的概率的負對數log(1/p)。如果該事件發生概率為1,比如太陽從東方公升起,那麼這個資訊量為0;若某一事件發生概率很小,突然有人告訴你,這件事馬上會發生,那麼這句話就包含了非常大的資訊量。

可以看到資訊量有幾個性質:

1.單調性;

2.非負性:概率p在0到1之間,所以資訊量非負;

3.可加性:-log(x*y) = -log(x)-log(y)

資訊熵是資訊量的期望,就是平均而言發生乙個事件我們得到資訊量的大小:

交叉熵常用於深度學習的損失函式。假設訓練樣本的真實概率分布為p,**概率分布為q,那麼交叉熵為:

假設真實分布為(1/2, 1/4, 1/8, 1/8),**分布為(1/4, 1/4, 1/4, 1/4),則:

資訊熵為(1/2)*log(2) + (1/4)*log(4) + (1/8)*log(8) + (1/8)*log(8) = 1.75

交叉熵為(1/2)*log(4) + (1/4)*log(4) + (1/8)*log(4) + (1/8)*log(4) = 2

可見交叉熵永遠是大於等於資訊熵的,最小化交叉熵就能向最優策略逼近。

交叉熵是用來衡量在給定的真實分布下,使用非真實分布所指定的策略消除系統的不確定性所需要付出的努力的大小。

那麼怎樣去衡量不同策略之間的差異呢?

就有了相對熵,又叫kl散度,它是用來衡量兩個取值為正的函式或概率分布之間的差異,差異越大則相對熵越大,差異越小則相對熵越小。

相對熵 = 某個策略的交叉熵 - 資訊熵:

上乙個例子相對熵為(1/2)*log(2) + (1/4)*log(1) + (1/8)*log(1/2) + (1/8)*log(1/2) = 0.25 = 2 - 1.75

資訊量 資訊熵 交叉熵 相對熵

1 資訊量 陳羽凡吸毒?工作室不是剛闢謠了嗎?哇!資訊量好大!在生活中,極少發生的事情最容易引起吃瓜群眾的關注。而經常發生的事情則不會引起注意,比如吃瓜群眾從來不會去關係明天太陽會不會東邊公升起。資訊量的多少與事件發生概率的大小成反比。對於已發生的事件i,其所提供的資訊量為 其中底數通常為2,負號的...

資訊量 資訊熵 相對熵 交叉熵

一般使用交叉熵作為損失函式時,在模型的輸出層總會接乙個softmax函式,這是為什麼呢?交叉熵簡介 交叉熵是資訊理論中的乙個重要概念,主要用於度量兩個概率分布間的差異性,要理解交叉熵,需要先了解以下幾個概念。資訊量資訊奠基人夏農 shannon 認為 資訊是用來消除隨機不確定性的一種東西 也就是說衡...

熵 相對熵 交叉熵等理解

假設我們聽到了兩件事,分別如下 事件a 巴西隊進入了2018世界盃決賽圈。事件b 中國隊進入了2018世界盃決賽圈。僅憑直覺來說,顯而易見事件b的資訊量比事件a的資訊量要大。究其原因,是因為事件a發生的概率很大,事件b發生的概率很小。所以當越不可能的事件發生了,我們獲取到的資訊量就越大。越可能發生的...