利用資訊熵構建決策樹

決策樹演算法普遍存在於我們的日常生活中，我們在不經意間就會使用到決策樹。比如你在糾結是否要去一家公司工作時，可能會用到下面的決策樹：

整個決策過程是這樣的：如果公司待遇高，你可能就願意去；如果待遇不高，你可能會繼續考慮公司的平台好不好。如果連平台都不好，那就直接拒絕。如果平台很好，你就會繼續考慮自己在這個平台上是否有成長空間，如果沒有，你就會拒絕。如果有成長空間，你會覺得即便待遇不高，也可以答應。

這樣的決策過程最終形成一棵樹，在這棵樹上，每乙個你提出的問題，都叫做決策結點，在最頂部的那個問題叫做根結點。每乙個結論（同意or拒絕）叫做葉子結點。

在上面那張圖的右邊，標出了乙個depth，指的是決策樹的深度。這棵決策樹的depth=3，意思最多用3次判斷，就能得出結論。根據奧卡姆剃刀定律，決策樹越簡單越好，depth自然也是越小越好。

在上面這個例子中，每乙個決策結點都是能用「是」或者「否」來判斷的疑問句，而實際上我們拿到的真實資料集，內容往往是一些具體的數值，所以在決策結點一般會有乙個閾值，我們將資料集中具體的數值和這個閾值進行比較，來劃分出分支。

理解了什麼是決策樹，接下來的問題就是：如何構建決策樹？從上面的例子可以看出來，構建決策樹的關鍵在於：每乙個決策結點上，你應該問什麼問題，也就是放置什麼樣的判斷條件。這個判斷條件由兩部分組成：

還是拿上面那個例子來舉例，比如根結點用工資這個維度來劃分，閾值是1萬。那如果乙份工作的工資是2萬，大於閾值，這份工作就可以接受。

我們在構建決策樹時，就是在做這樣兩件事情：找到合適的決策維度，以及合適的閾值。能解決這兩個問題的方法很多，其中乙個方法就是利用資訊熵。

想一想我們利用決策樹究竟在做一件什麼事情。是不是在把一件原本非常不確定的事情，逐步劃分，直到得出乙個確定的分類結果。

一件事情的不確定程度，我們可以用資訊熵來表示。資訊熵越大，我們就認為這件事越不確定。所以構建決策樹的過程，就是資訊熵逐漸減少的過程。

資訊熵是資訊理論的乙個基礎概念，用數學公式表示如下：

公式的意思是，在某個事件中，有k種可能的結果，i是其中的一種，p指的是i發生的概率。我們對這個概率求一下log，然後再和這個概率本身相乘一下，得到的值，還得取一下負，最後把所有這樣的值（一共有k個），加在一起求個和，就是這個事件的資訊熵。

舉個例子：

左邊事件有三種可能性，每乙個都是三分之一的概率，它算出來的資訊熵是1.0986。右邊這個事件算出來的資訊熵是0.8018。右邊的資訊熵更小，所以右邊事件的確定性更高。事實上也是如此，右邊事件中有一種可能性的概率高達70%，這就比較確定了。

最確定的情況，則如下圖所示：

這種情況的資訊熵等於零，它的三種可能性中，第乙個可能性的概率為1，也就是百分之百發生。這就很確定了。

所以如果想讓資訊熵降低，其實就是把可能性往某一種分類結果上推。如果還不清楚，我們可以用二分類的問題來畫一張資訊熵的變化圖，直觀的看一下。

所謂二分類問題，就是事件只有兩種情況，其中一種情況的概率是x，那麼另一種情況的概率就是（1 - x），那資訊熵的計算公式就可以變成如下圖所示：

我們把x的概率從0.01取到0.99，就可以繪製出下面這張圖：

可以看出，x的概率在0.5的時候，資訊熵的值最大，也就是說當二分類問題五五開時，不確定度最高。所以當把概率向某一種可能性推的時候，資訊熵就會下降，直到某一種情況概率為1時，事件就確定了。

所以在利用資訊熵構建決策樹時，就是去比較每乙個判斷條件帶來的資訊熵遞減程度。選出導致資訊熵遞減程度最大的判斷條件，然後把它放到根結點的位置。接著重複執行這樣的步驟，直到構建出完整的決策樹為止。