ML筆記 決策樹

2021-10-23 17:40:41 字數 1425 閱讀 9260

十分有幸可以參加datawhale組隊學習活動,希望可以與datawhale的小夥伴們共同學習,共同進步。

決策樹是一種常見的分類模型,在金融分控、醫療輔助診斷等諸多行業具有較為廣泛的應用。決策樹的核心思想是基於樹結構對資料進行劃分,這種思想是人類處理問題時的本能方法。例如在婚戀市場中,女方通常會先看男方是否有房產,如果有房產再看是否有車產,如果有車產再看是否有穩定工作,最後得出是否要深入了解的判斷。

由於決策樹模型中自變數與因變數的非線性關係以及決策樹簡單的計算方法,使得它成為整合學習中最為廣泛使用的基模型。梯度提公升樹(gbdt),xgboost以及lighigbm等整合模型都採用了決策樹作為基模型,在廣告計算、ctr預估、金融風控等領域大放異彩,成為當今與神經網路相提並論的複雜模型,更是資料探勘比賽中的常客。在新的研究中,南京大學周志華老師提出一種多粒度級聯森林模型,創造了一種全新的基於決策樹的深度整合方法,為我們提供了決策樹發展的另一種可能。

決策樹學習通常包括3個步驟:特徵選擇、決策樹的生成和決策樹的修建。

為了便於說明,先給出熵與條件熵的定義。

在資訊理論與概率統計中,熵 (entropy) 是表示隨機變數不確定性的度量。設x

xx是 乙個取有限個值的離散隨機變數,其概率分布為

p (x

=xi)

=pi,

i=1,

2,⋯,

np\left(x=x_\right)=p_, \quad i=1,2, \cdots, n

p(x=xi

​)=p

i​,i

=1,2

,⋯,n

則隨機變數x

xx的熵定義為

h (x

)=−∑

i=1n

pi

log⁡pi

h(x)=-\sum_^ p_ \log p_

h(x)=−

i=1∑

n​pi

​logpi

​在上式中, 若pi=

0p_=0

pi​=

0,則定義0

log⁡0=

00 \log 0=0

0log0=

0。通常,式中的對數以2為底或以

e

\mathrm

e為底 (自然對數),這時熵的單位分別稱作位元(bit)或納特(nat)。由定義可知,熵只依賴於x

xx的分布,而與x

xx的取值無關,所以也可將x

xx的熵記作h(p

)h(p)

h(p),即h(p

)=−∑

i=1n

pi

log⁡pi

h(p)=-\sum_^ p_ \log p_

h(p)=−

i=1∑

n​pi

​logpi

​嫡越大,隨機變數的不確定性就越大。

ML筆記 決策樹剪枝

無論是分類樹還是回歸樹,剪枝過程很重要,剪枝處理不當或是沒有剪枝操作,決策樹模型都是失敗的,通過剪枝,可以大大提高模型準確度,避免決策樹的過擬合。決策樹生成演算法遞迴地生成決策樹,直到不能繼續下去為止,產生的樹對於訓練集會有很好的模型準確率,但是對於未知的測試資料分類卻沒有那麼準確,因此,對書的剪枝...

ML筆記 CH4 決策樹

僅個人讀書筆記.本章知識點核心 特徵選擇 剪枝處理 連續與缺失值處理 決策樹採取了遞迴的思想,可用於分類,也可以用於回歸。包括3個步驟 特徵選擇 決策樹的生成和決策樹的修剪。主要有id3 c4.5和cart三種演算法。4.3 剪枝處理 4.4 連續與缺失值 決策樹 一棵決策樹包含乙個根結點 若干個內...

決策樹 ML之三

在決策樹模型中,最重要的乙個概念就是熵,熵從通俗語言來講就是資訊的不確定性,比如我有一袋5個水果,不知道是什麼水果,目前的不確定性是最大的,熵最大,如果拿出來乙個是蘋果,那麼這袋水果的不確定性就減小了,熵也減小了,再拿出乙個知道是梨子,熵進一步減小,直到取出所有水果,這時候不確定性最低,都確定了,熵...