資訊理論幾個基本概念

在學習機器學習的演算法之前，需要明確幾個基本概念。

1. 資訊熵（entropy）

熵是表示隨機變數不確定性的度量.從直觀上，資訊熵越大，變數包含的資訊量越大，變數的不確定性也越大。乙個事物內部會存在隨機性，也就是不確定性，而從外部消除這個不確定性唯一的辦法是引入資訊。如果沒有資訊，任何公式或者數字的遊戲都無法排除不確定性。幾乎所有的自然語言處理，資訊與訊號處理的應用都是乙個消除不確定性的過程。

2 條件熵（conditional entropy）

條件熵h（y|x）表示在已知隨機變數y的條件下隨機變數x的不確定性，隨機變數y給定的條件下，隨機變數x的條件熵h（y|x）定義為——x給定條件下y的條件概率分布的熵對x的數學期望。知道的資訊越多，隨機事件的不確定性就越小。

定義式：

3 聯合熵

設x y為兩個隨機變數，隨機變數x和y聯合資訊熵：

4 左右熵

一般用於統計方法的新詞發現。

計算一對詞之間的左熵和右熵，熵越大，越說明是乙個新詞。因為熵表示不確定性，所以熵越大，不確定越大，也就是這對詞左右搭配越豐富，越多選擇。如：屌絲，這個詞，我們希望左右熵都很大，希望屌絲這個詞左右邊搭配盡可能豐富，如左邊：這屌絲、臭屌絲、窮屌絲；右邊：屌絲的，屌絲樣、屌絲命等。左右搭配豐富。

5資訊增益

資訊增益表示得知特徵x的資訊而使得類y的資訊的不確定性減少的程度，在分類中是一種衡量樣本特徵重要性的方法，直觀的理解是有無樣本特徵對分類問題的影響的大小。假設某個狀態下系統的資訊熵為h(y)，再引入某個特徵x後的資訊熵為h(y|x)，則特徵x的資訊增益定義為：

資訊增益在機器學習領域有著重要的應用。例如在構建決策樹時，利用資訊增益，選擇重要的特徵**資料集；在文字特徵選擇方法中，利用ig方法進行特徵選擇。理解熵的概念、資訊增益的概念可以幫助我們增加對這些演算法的理解。一般地，熵h（y）與條件熵h（y|x）之差稱為互資訊，決策樹學習中的資訊增益等價於訓練資料集中類與特徵的互資訊。

6互資訊（mutual information）

互資訊是計算語言學模型分析的常用方法，它度量兩個物件之間的相互性。

定義式：

7基尼指數

分類問題中，假設有m個類，樣本點屬於第i類的概率為pi，則概率分布的基尼指數定義為

如果樣本集合d根據特徵a是否取某一可能值a被分割成d1和d2兩部分，則在特徵a的條件下，集合d的基尼指數定義為

其中，基尼指數gini(d)表示集合d的不確定性，基尼指數gini(d,a)表示經a = a分割後集合d的不確定性。基尼指數值越大，樣本集合的不確定性也就越大，這與熵相似。

資訊理論幾個基本概念

資訊理論的相關基本概念

資訊理論與編碼 01 資訊的概念

資訊理論筆記

資訊理論幾個基本概念

資訊理論的相關基本概念

資訊理論與編碼 01 資訊的概念

資訊理論筆記

相關推薦