機器學習 3 資訊理論

1.資訊熵

給定概率密度函式\(p(x)\)，定義該函式的資訊熵

\(h(p)=h[\mathbf]=-\int)lnp(\mathbf)d\mathbf}\)

資訊熵描述了分布的混亂程度。均勻分布是使得資訊熵最大的概率分布。單點的衝擊響應函式對應的資訊熵最小

2.相對熵

給定兩個概率密度函式\(p(x)\)和\(q(x)\),描述二者之間的差異（距離），定義相對熵

\(kl(p||q)=-\int)\textbfq(\mathbf)d\mathbf}-(-\int)\textbfp(\mathbf)d\mathbf}) \\

kl(p||q)=-\int)})} \right \}}\)

對任意概率分布\(kl(p||q)\geqslant 0\)，等號當且僅當\(p=q\)。

3.互資訊

對於兩個隨機變數\(x,y\) ，定義二者之間的互資訊

\(i[x,y]=kl(p(x,y)||p(x)p(y)=-\iint \right )dxdy}\)

若\(x,y\) 相互獨立，則互資訊為0，二者相互無關

\(i[x,y]=h[x]-h[x|y]=h[y]-h[y|x]\)

4.交叉熵及深度學習的應用

給定兩個概率密度函式\(p(x)\)和\(q(x)\)，定義\(p(x)\) 關於\(q(x)\) 的交叉熵

\(h(p,q)=e_(-lnq)=-\int=h(p)+kl(p||q)\)

交叉熵作為logistic、 softmax回歸的代價函式，常應用神經網路的輸出層。

資訊理論學習

條件熵和聯合熵 h x y z h x z h y x,z h x,y z h x z h y x,z h x,y z h x z h y x,z 互資訊基本性質對稱性x,y顛倒位置相等非負性肯定大於等於零級值性互資訊不可能比自身還大可加性例題題目 25個銅幣有一枚質量不同，通過天平最少能...

資訊理論學習筆記

克勞德夏農 claude shannon 美國數學家電子工程師和密碼學家，被譽為資訊理論的創始人。資訊理論是在資訊可以量度的基礎上，研究有效和可靠的傳遞資訊的科學，它涉及資訊量度資訊特性資訊傳輸速率通道容量干擾對資訊傳輸的影響等方面的知識。資訊量是對資訊的度量。多少資訊用資訊量來衡量，我...

資訊理論筆記

i p log b p 當b 2,熵的單位是bit b e,熵的單位是nat b 10,熵的單位是hart p 1,i p 0 p 0,i p p 1 2,i p 1 h x ex i x e x l ogb x 個人理解 x可以是連續或者離散,反正就是積分h p,q ep log q h p dk...

機器學習 3 資訊理論

資訊理論學習

資訊理論 學習筆記

資訊理論筆記

相關推薦

資訊理論學習筆記