ML筆記決策樹

十分有幸可以參加datawhale組隊學習活動，希望可以與datawhale的小夥伴們共同學習，共同進步。

決策樹是一種常見的分類模型,在金融分控、醫療輔助診斷等諸多行業具有較為廣泛的應用。決策樹的核心思想是基於樹結構對資料進行劃分，這種思想是人類處理問題時的本能方法。例如在婚戀市場中，女方通常會先看男方是否有房產，如果有房產再看是否有車產，如果有車產再看是否有穩定工作，最後得出是否要深入了解的判斷。

由於決策樹模型中自變數與因變數的非線性關係以及決策樹簡單的計算方法,使得它成為整合學習中最為廣泛使用的基模型。梯度提公升樹(gbdt)，xgboost以及lighigbm等整合模型都採用了決策樹作為基模型，在廣告計算、ctr預估、金融風控等領域大放異彩，成為當今與神經網路相提並論的複雜模型，更是資料探勘比賽中的常客。在新的研究中，南京大學周志華老師提出一種多粒度級聯森林模型，創造了一種全新的基於決策樹的深度整合方法，為我們提供了決策樹發展的另一種可能。

決策樹學習通常包括3個步驟：特徵選擇、決策樹的生成和決策樹的修建。

為了便於說明，先給出熵與條件熵的定義。

在資訊理論與概率統計中，熵 (entropy) 是表示隨機變數不確定性的度量。設x

xx是乙個取有限個值的離散隨機變數，其概率分布為

p (x

=xi)

=pi,

i=1,

2,⋯,

np\left(x=x_\right)=p_, \quad i=1,2, \cdots, n

p(x=xi

)=p

i,i

=1,2

,⋯,n

則隨機變數x

xx的熵定義為

h (x

)=−∑

i=1n

log⁡pi

h(x)=-\sum_^ p_ \log p_

h(x)=−

i=1∑

npi

logpi

在上式中, 若pi=

0p_=0

pi=

0，則定義0

log⁡0=

00 \log 0=0

0log0=

0。通常，式中的對數以2為底或以

\mathrm

e為底 (自然對數)，這時熵的單位分別稱作位元（bit）或納特（nat）。由定義可知，熵只依賴於x

xx的分布，而與x

xx的取值無關，所以也可將x

xx的熵記作h(p

)h(p)

h(p)，即h(p

)=−∑

i=1n

log⁡pi

h(p)=-\sum_^ p_ \log p_

h(p)=−

i=1∑

npi

logpi

嫡越大，隨機變數的不確定性就越大。

ML筆記決策樹

ML筆記決策樹剪枝

ML筆記 CH4 決策樹

決策樹 ML之三

ML筆記 決策樹

ML筆記 決策樹剪枝

ML筆記 CH4 決策樹

決策樹 ML之三

相關推薦

ML筆記決策樹

ML筆記決策樹剪枝