機器學習 3 資訊理論

2022-04-30 22:21:26 字數 867 閱讀 4671

1.資訊熵

給定概率密度函式\(p(x)\),定義該函式的資訊熵

\(h(p)=h[\mathbf]=-\int)lnp(\mathbf)d\mathbf}\)

資訊熵描述了分布的混亂程度。均勻分布是使得資訊熵最大的概率分布。單點的衝擊響應函式對應的資訊熵最小 

2.相對熵

給定兩個概率密度函式\(p(x)\)和\(q(x)\),描述二者之間的差異(距離),定義相對熵

\(kl(p||q)=-\int)\textbfq(\mathbf)d\mathbf}-(-\int)\textbfp(\mathbf)d\mathbf}) \\

kl(p||q)=-\int)})} \right \}}\)

對任意概率分布\(kl(p||q)\geqslant 0\), 等號當且僅當\(p=q\)。

3.互資訊

對於兩個隨機變數\(x,y\) ,定義二者之間的互資訊

\(i[x,y]=kl(p(x,y)||p(x)p(y)=-\iint \right )dxdy}\)

若\(x,y\) 相互獨立,則互資訊為0,二者相互無關

\(i[x,y]=h[x]-h[x|y]=h[y]-h[y|x]\)

4.交叉熵及深度學習的應用

給定兩個概率密度函式\(p(x)\)和\(q(x)\),定義\(p(x)\) 關於\(q(x)\) 的交叉熵

\(h(p,q)=e_(-lnq)=-\int=h(p)+kl(p||q)\)

交叉熵作為logistic、 softmax回歸的代價函式,常應用神經網路的輸出層。

資訊理論學習

條件熵和聯合熵 h x y z h x z h y x,z h x,y z h x z h y x,z h x,y z h x z h y x,z 互資訊基本性質 對稱性x,y顛倒位置相等 非負性肯定大於等於零 級值性互資訊不可能比自身還大 可加性 例題題目 25個銅幣有一枚質量不同,通過天平最少能...

資訊理論 學習筆記

克勞德 夏農 claude shannon 美國數學家 電子工程師和密碼學家,被譽為資訊理論的創始人。資訊理論是在資訊可以量度的基礎上,研究有效和可靠的傳遞資訊的科學,它涉及資訊量度 資訊特性 資訊傳輸速率 通道容量 干擾對資訊傳輸的影響等方面的知識。資訊量是對資訊的度量。多少資訊用資訊量來衡量,我...

資訊理論筆記

i p log b p 當b 2,熵的單位是bit b e,熵的單位是nat b 10,熵的單位是hart p 1,i p 0 p 0,i p p 1 2,i p 1 h x ex i x e x l ogb x 個人理解 x可以是連續或者離散,反正就是積分h p,q ep log q h p dk...