3 1 決策樹的基本思想

例項：銷售調查例子（對潛在客戶進行分類，給出銷售人員指導意見）

銷售調查表：

銷售調查決策樹：

上面僅是從定性的角度對潛在使用者的判斷，下面加上定量的判斷：

決策樹的演算法框架：

計算最優特徵子函式：不同標準導致不同型別的決策樹，如id3的最優特徵選擇標準是資訊增益，c4.5是資訊增益率，cart是節點方差的大小等等。演算法邏輯上，一般選擇最優特徵需要遍歷整個資料集，評估每個特徵，找到最優的那個返回。

劃分資料集子函式：分隔資料集。

分類器：將測試遍歷整個生成的決策樹，並找到最終的葉子節點的類別標籤。這個標籤就是返回的結果。

資訊熵測度

特徵集中的資料常常表現為定性字串資料，成為標稱資料，使用這些資料的演算法缺乏泛化能力，在實際計算中需要將這些資料定量化為數字，即所謂的離散化。

如何每次都選擇出特徵集中無序度最大的那列特徵作為劃分節點？？

為了衡量乙個事物特徵取值的有無序程度，引入乙個概念：資訊熵

夏農（shannon）在他的《資訊理論》中借用了熵的概念，提出了著名的資訊熵。

不妨將資訊熵理解成某種特定資訊的出現概率

考慮信源所有可能情況的平均不確定性，使用單個不確定性-log(pi)來統計平均值e，可稱為資訊熵

我們需要使用資訊熵來度量類別標籤對樣本整體的不確定性。設s是s個資料樣本的集合，類別標籤具有m個不同值，定義m個不同類ci（i=1,2,3,...,m）。設si是ci中的樣本數。則對於乙個給定的樣本分類所需要的資訊熵如下：

接下來使用資訊熵度量每種特徵不同取值的不確定性。設a具有v個不同值。可以用特徵a將s劃分成v個子集。其中，sj包含在a上具有值aj的樣本。如果選a做測試特徵，即最優劃分特徵，那麼這些子集就是s節點中生長出來的決策樹分支。設sij是子集sj中類ci的樣本數。根據由a劃分成子集的熵：

最後使用資訊增益來確定決策樹分支的劃分依據。其是決策樹上某個分支上整個資料集資訊熵與當前節點資訊熵的差值，用gain(a)表示：