資訊增益的理解

2021-08-10 05:27:20 字數 2327 閱讀 4537

理解(1)

熵:表示隨機變數的不確定性。

條件熵:在乙個條件下,隨機變數的不確定性。

資訊增益:熵 - 條件熵

在乙個條件下,資訊不確定性減少的程度!

通俗地講,x(明天下雨)是乙個隨機變數,x的熵可以算出來, y(明天陰天)也是隨機變數,在陰天情況下下雨的資訊熵我們如果也知道的話(此處需要知道其聯合概率分布或是通過資料估計)即是條件熵。

兩者相減就是資訊增益!原來明天下雨例如資訊熵是2,條件熵是0.01(因為如果是陰天就下雨的概率很大,資訊就少了),這樣相減後為1.99,在獲得陰天這個資訊後,下雨資訊不確定性減少了1.99!是很多的!所以資訊增益大!也就是說,陰天這個資訊對下雨來說是很重要的!

所以在特徵選擇的時候常常用資訊增益,如果ig(資訊增益大)的話那麼這個特徵對於分類來說很關鍵~~ 決策樹就是這樣來找特徵的!

理解(2)

我通過例子一步一步講解這個概念。

在決策樹演算法的學習過程中,資訊增益是特徵選擇的乙個重要指標,它定義為乙個特徵能夠為分類系統帶來多少資訊,帶來的資訊越多,說明該特徵越重要,相應的資訊增益也就越大。

我們前面說了,資訊熵是代表隨機變數的複雜度(不確定度)通俗理解資訊熵 - 知乎專欄,條件熵代表在某乙個條件下,隨機變數的複雜度(不確定度)通俗理解條件熵 - 知乎專欄。

而我們的資訊增益恰好是:資訊熵-條件熵。

換句話說,資訊增益代表了在乙個條件下,資訊複雜度(不確定性)減少的程度。

那麼我們現在也很好理解了,在決策樹演算法中,我們的關鍵就是每次選擇乙個特徵,特徵有多個,那麼到底按照什麼標準來選擇哪乙個特徵。

這個問題就可以用資訊增益來度量。如果選擇乙個特徵後,資訊增益最大(資訊不確定性減少的程度最大),那麼我們就選取這個特徵。

我們有如下資料:

嫁的個數為6個,佔1/2,那麼資訊熵為-1/2log1/2-1/2log1/2 = -log1/2=0.301

現在假如我知道了乙個男生的身高資訊。

身高有三個可能的取值

矮包括,嫁的個數為1個,不嫁的個數為6個

中包括 ,嫁的個數為2個,不嫁的個數為0個

高包括,嫁的個數為3個,不嫁的個數為0個

先回憶一下條件熵的公式如下:

h(y|x = 矮) = -1/7log1/7-6/7log6/7=0.178

h(y|x=中) = -1log1-0 = 0

h(y|x=高) = -1log1-0=0

p(x = 矮) = 7/12,p(x =中) = 2/12,p(x=高) = 3/12

則可以得出條件熵為:

7/12*0.178+2/12*0+3/12*0 = 0.103

那麼我們知道資訊熵與條件熵相減就是我們的資訊增益,為

0.301-0.103=0.198

所以我們可以得出我們在知道了身高這個資訊之後,資訊增益是0.198

我們可以知道,本來如果我對乙個男生什麼都不知道的話,作為他的女朋友決定是否嫁給他的不確定性有0.301這麼大。

當我們知道男朋友的身高資訊後,不確定度減少了0.198.也就是說,身高這個特徵對於我們廣大女生同學來說,決定嫁不嫁給自己的男朋友是很重要的。

至少我們知道了身高特徵後,我們原來沒有底的心裡(0.301)已經明朗一半多了,減少0.198了(大於原來的一半了)。

那麼這就類似於非誠勿擾節目裡面的橋段了,請問女嘉賓,你只能知道男生的乙個特徵。請問你想知道哪個特徵。

假如其它特徵我也全算了,資訊增益是身高這個特徵最大那麼我就可以說,孟非哥哥,我想知道男嘉賓的乙個特徵是身高特徵。因為它在這些特徵中,對於我挑夫君是最重要的,資訊增益是最大的,知道了這個特徵,嫁與不嫁的不確定度減少的是最多的。

哈哈,希望能對理解資訊增益有所幫助。

資訊增益,資訊增益率,Gini

資訊增益 首先,計算總系統的熵,然後,當某特徵固定時,會將系統分成幾個 此特徵的可能值數目 子系統,分別計算每個子系統的熵,方法同上 而後,將幾個子系統的熵加起來,便是 當不包含此特徵 時系統的熵 最後,以上兩個 包含 和 不包含 此特徵情況下系統的熵的差值便是此特徵的資訊增益。gini 係數 某個...

熵 資訊增益 資訊增益率

介紹資訊增益之前,首先需要介紹一下熵的概念,這是乙個物理學概念,表示 乙個系統的混亂程度 系統的不確定性越高,熵就越大。假設集合中的變數x 它對應在集合的概率分別是p 那麼這個集合的熵表示為 舉乙個的例子 對遊戲活躍使用者進行分層,分為高活躍 中活躍 低活躍,遊戲a按照這個方式劃分,使用者比例分別為...

資訊增益與資訊增益率詳解

熟悉決策樹演算法的人都知道id3以及c4.5兩種演算法,當然也非常清楚資訊增益以及資訊增益率兩個概念。資訊增益 節點m的資訊熵e1與其全部子節點資訊熵之和e2的差。資訊增益率 節點資訊增益與節點 資訊度量的比值。資訊增益是id3演算法的基礎,資訊增益率是c4.5演算法的基礎。同時,c4.5是id3演...