KL散度 JS散度 Wasserstein距離

2021-09-20 06:22:52 字數 1033 閱讀 4020

kl散度又稱為相對熵,資訊散度,資訊增益。kl散度是兩個概率分布p和q 差別的非對稱性的度量。 kl散度是用來 度量使用基於q的編碼來編碼來自p的樣本平均所需的額外的位元數。 典型情況下,p表示資料的真實分布,q表示資料的理論分布,模型分布,或p的近似分布。

定義如下:

因為對數函式是凸函式,所以kl散度的值為非負數。

有時會將kl散度稱為kl距離,但它並不滿足距離的性質:

js散度度量了兩個概率分布的相似度,基於kl散度的變體,解決了kl散度非對稱的問題。一般地,js散度是對稱的,其取值是0到1之間。

kl散度和js散度度量的時候有乙個問題:

如果兩個分配p,q離得很遠,完全沒有重疊的時候,那麼kl散度值是沒有意義的,而js散度值是乙個常數。這在學習演算法中是比較致命的,這就意味這這一點的梯度為0。梯度消失了。

wasserstein距離度量兩個概率分布之間的距離,定義如下:

π(p1,p2)是p1和p2分布組合起來的所有可能的聯合分布的集合。對於每乙個可能的聯合分布γ,可以從中取樣(x,y)∼γ得到乙個樣本x和y,並計算出這對樣本的距離||x−y||,所以可以計算該聯合分布γ下,樣本對距離的期望值e(x,y)∼γ[||x−y||]。在所有可能的聯合分布中能夠對這個期望值取到的下界infγ∼π(p1,p2)e(x,y)∼γ[||x−y||]就是wasserstein距離。

直觀上可以把e(x,y)∼γ[||x−y||]理解為在γ這個路徑規劃下把土堆p1挪到土堆p2所需要的消耗。而wasserstein距離就是在最優路徑規劃下的最小消耗。所以wesserstein距離又叫earth-mover距離。

wessertein距離相比kl散度和js散度的優勢在於:即使兩個分布的支撐集沒有重疊或者重疊非常少,仍然能反映兩個分布的遠近。而js散度在此情況下是常量,kl散度可能無意義。

KL散度 JS散度

kl divergence kullback leibler divergence kl散度,kl距離,又叫相對熵 relative entropy 衡量兩個概率分布之間的不同程度,是描述兩個概率分布p和q差異的一種方法就是資訊理論學的相對熵 最簡單的情況 當kl divergence為0時,兩個分...

KL散度與JS散度

js散度 jensen shannon divergence 又稱kl距離,相對熵。kl散度是描述兩個概率分布p和q之間差異的一種方法。直觀地說,可以用來衡量給定任意分布偏離真實分布的程度,如果兩個分布完全匹配,那麼kl p q 0,否則它的取值應該是0 inf 之間。kl散度越小,真實分布與近視分...

KL散度 JS散度以及交叉熵對比

在看 detecting regions of maximal divergence for spatio temporal anomaly detection 時,文中提到了這三種方法來比較時間序列中不同區域概率分布的差異。三者都是用來衡量兩個概率分布之間的差異性的指標。不同之處在於它們的數學表達...