決策樹學習是一種逼近離散值目標函式的方法,在這樣的方法中學習到的函式被表示為一棵決策樹。
表示法:把例項從根節點排列到某個葉子節點來分類例項,葉子節點即為例項所屬的分類。樹上的每個節點指定了對例項的某個屬性(attribute)的測試,而且該節點的每個字尾分支相應於該屬性的乙個可能值。分類例項的方法是從這棵樹的根節點開始,測試這個節點指定的屬性。然後依照給定例項的該屬性值相應的樹枝向下移動。
然後這個過程在以新節點為根的子樹上反覆。
上圖是一棵學習到的決策樹。依據天氣情況分類「星期六上午是否適合打網球」。
決策樹的適用問題:
核心問題是將例子分類到各可能的離散值相應的類別(category)中,因此常被稱為分類問題(classification problem)。
主要的決策樹學習演算法:
id3演算法:採用自頂向下的貪婪搜尋遍歷可能的決策樹空間。
訓練過程:通過自頂向下構造決策樹來進行學習,構造過程是從「哪乙個屬性將在樹的根節點被測試?」這個問題開始。
使用統計測試來確定每個例項屬性單獨分類訓練例子的能力,分類最好的屬性將被選作樹的根節點,然後為根節點屬性的每個值產生乙個分支,反覆整個過程。
演算法概要:
可是,哪個屬性是最佳的分類屬性呢?
這就須要用到「奧坎姆剃刀」原則:
優先選擇擬合資料的最簡單如果。
決策樹遵照這個原則:
較短的樹比較長的優先。
那麼怎麼確定乙個屬性可以較好的劃分訓練資料呢?這就用到了資訊理論(information theory)。
資訊就是不確定性的降低。並獲取新的知識。
資訊是確定性的新增
—-逆shannon資訊定義。
乙個事件的資訊量與它出現的概率最為相關。
假設乙個確定發生的事件發生了。那麼確定性沒有不論什麼變化,所以得到的資訊為0。而假設小概率的事件發生了,那麼將得到比可能發生的事情很多其它的資訊量。
所以資訊量與事件發生的概率成反比。
熵確定了要編碼的集合s中隨意成員的分類所需的最小二進位制位數。
用熵度量例子的均一性:給定包括關於某個目標概念的正反例子集s,難麼s相對這個布林型分類的熵為:
entropy(s) = -p+ log2p+ - p- log2p-
當中。p+是s中正例的比例,p-是s中反例的比例。
屬性分類訓練資料的能力的度量標準:資訊增益(information gain),乙個屬性的資訊增益是因為使用這個屬性分隔例子而導致期望的熵減少。即,下式:
values(a)是屬性a全部可能值的集合。sv是屬性a的值為v的子集。
資訊增益是id3演算法增長樹的每一步中選取最佳擬合屬性的度量標準。
決策樹學習的常見問題:
避免過擬合
過擬合:給定乙個如果空間h,乙個如果h屬於h,如果存在其它的如果h'屬於h,使得在訓練例子上h的錯誤率比h'小,但在整個實際分布上h'的錯誤率比h'小,那麼就說h過度擬合(overfit)訓練資料。
解決過擬合:
《機器學習》學習筆記之決策樹
決策樹,顧名思義,以樹的結構來進行 它的基本概念在章節開頭有詳細的介紹。構建樹的遞迴演算法中,有三個情形會導致遞迴返回。其中第二個 當前屬性 特徵 集為空,或是所有樣本在所有屬性上取值相同,無法劃分。其意思是 已經沒有特徵拿來作進一步劃分生成子節點,或者此結點中的樣本標記不一致,但是他們在剩餘待劃分...
機器學習之決策樹學習筆記
機器學習之決策樹學習筆記 什麼是決策樹?決策樹是根據資料特徵 屬性 進行不斷分類最終得到結論的一種機器學習方法。point1 資料特徵的選擇的依據是屬性的資訊增益 部分?point2 不斷分類表明決策樹是乙個遞迴過程 一 資訊熵與資訊增益 決策樹學習的關鍵是如何選擇最優劃分屬性,隨著劃分過程不斷進行...
《統計機器學習》 決策樹學習筆記
利用資訊增益構建決策樹例項 資訊增益比 id3演算法 c4.5生成演算法 決策樹的剪枝 cart演算法 決策樹是基本的分類和回歸方法。但是主要用於分類。在分類問題中,表示基於特徵對樣本進行分類的過程,也可以認為是在特徵空間與類空間上的條件概率分布 類空間就是分類的結果,比如有二分類 是否問題 之所以...