決策樹理論基礎 資訊和熵

2021-10-06 22:29:52 字數 1607 閱讀 8831

上圖為例,有這樣乙個事件,乙個體遇到乙個a、b、c、d四個選項的選擇題,因為每乙個選項對的概率都是25%,就造成他的苦惱。

上圖中,當乙個事件(巨集觀態)有多種可能情況(微觀態)發生時,這種事件對個體而言具體哪種情況的不確定性叫。而能夠消除人對這事件的不確定性的事物叫資訊

熵和資訊雖然在數量上是相等的,但意義相反。獲取資訊意味著消除不確定性(熵)。

資訊描述的是乙個觀察者確定乙個巨集觀態是哪個微觀態時需要的物理量,所以資訊是相對的,比如「太陽從西邊公升起」這句話。對於知道的人,這句話的資訊熵為0,對於或東或西的人來說,帶來的資訊熵為1bit,對於或東南西北四個方向的人來講,帶來的資訊熵為2bit。

正如其他物理量一樣,熵也是乙個物理量,它同樣可以被量化。量化的根本是要找到乙個參照物,並以此為標準。

規定隨機投一枚硬幣,猜一次硬幣正反面的不確定性帶來的熵為1bit。

之所以計算熵要用底數為2的log,是因為硬幣的數量和可能的結果是指數關係,即硬幣數m,就有2^m種情況,而指數的反函式就是底數為2的log。

預設概率是一樣的,但當概率不一致時,要知道概率的倒數m等於m個等概率狀態的個數。

下圖是信源x的概率分布:

設x是乙個有限狀態的離散型隨機變數,其概率分布如上圖所示,則隨機變數x的熵定義為下圖。

條件熵是在聯合符號集合xy上的條件自資訊量的數學期望,也叫損失熵,表示信宿收到y後,信源x仍然存在的不確定度,即隨機變數x給定的條件下,隨機變數y的條件熵h[x|y]。定義如下圖所示:

資訊增益和互資訊量在數值上是相等的,他們表示的是:得知特徵x的資訊而使得類y的資訊的不確定性減少的程度。一般地,熵h[x]與條件熵h[x|y]之差稱為互資訊。

資訊增益比定義為其資訊增益與訓練集d關於特徵a的值的熵之比:

決策樹 資訊熵增益

from math import log import operator defcreatedateset dataset 青年 否 否 一般 否 青年 否 否 好 否 青年 是 否 好 是 青年 是 是 一般 是 青年 否 否 一般 否 中年 否 否 一般 否 中年 否 否 好 否 中年 是 是 ...

利用資訊熵構建決策樹

決策樹演算法普遍存在於我們的日常生活中,我們在不經意間就會使用到決策樹。比如你在糾結是否要去一家公司工作時,可能會用到下面的決策樹 整個決策過程是這樣的 如果公司待遇高,你可能就願意去 如果待遇不高,你可能會繼續考慮公司的平台好不好。如果連平台都不好,那就直接拒絕。如果平台很好,你就會繼續考慮自己在...

決策樹資訊熵數理剖析

決策樹資訊熵數理剖析 資訊熵記錄拓展決策樹 張 極 2019年年3 月9日 假如有乙個集合為a 1,2,3,4,5 另 乙個集合為b 1,2,3,2,2,4 那麼我們對應的應該如何獲取兩個資料集的資訊熵呢,首先我們需要了了解資訊熵的 定義,在數學上,資訊熵作為資料集混亂程度的計算量化指標,我們獲得最...