機器學習演算法概述第五章 CART演算法

2022-04-29 00:54:11 字數 2129 閱讀 5713

特點:

是乙個二叉樹,元素可以重複利用,可以做回歸也可以做分類,分類用最小二乘法,即誤差平方和最小

切割方法:

對於可量化的x來說:

切割點通常為兩個x的平均值

左右兩部分分別取均值,再評判以哪個分割點的誤差平方和最小,即第一層根節點為此點

以此為規則,往下迭代,構建出回歸樹

對於不可量化的x來說:

x無法去均值。直接以特徵屬性割分,再計算兩個區域的均值,再尋找誤差平方和最小的切割點

舉個栗子:

cart回歸樹的構建:

優點:

易於解釋

處理類別特徵,其他的技術往往要求資料屬性的單一

延展到多分類

不需要特徵放縮

能捕獲非線性關係和特徵間的互動關係

缺點:

尋找最優的決策樹是一 個np-hard的問題,只能通過啟發式方法求次優解

決策樹會因為樣本發生- -點點的改動,就會導致樹結構的劇烈改變

如果某些離散特徵的特徵值種類多,生成決策樹容易偏向於這些特徵id3

有些比較複雜的關係,決策樹很難學習,比如異或

cart分類決策樹演算法:

純度:當樣本點均來自同一類別時不純度為0,當兩個樣本點屬於不同類別時的不純度為兩個類別的概率相乘

多類別時:

來自於1類別的概率+來自於2類別的概率+來自於3類別的概率

不純度就是基尼係數,以基尼係數最小的一項為第乙個切分點,基尼係數計算如下

cart分類樹也是乙個二叉樹

總結

kd-tree目前接觸到的是無監督的

id3、c4.5和cart演算法均只適合在小規模資料集上使用

id3、 c4.5和cart演算法都是單變數決策樹

決策樹分類- 般情況只適合小資料量的情況(資料可以放記憶體

cart演算法是三種演算法中最常用的一種決策樹構建演算法(sklearn中僅支援cart)。

三種演算法的區別僅僅只是對於當前樹的評價標準不同而已,id3使用資訊增益、

c4.5使用資訊增益率、cart使用基尼係數。 (不是主要區別)

cart演算法構建的一定是二 叉樹,id3和c4.5構建的不一 定是二 叉樹。(主要區別)

c4.5在我們學習使用的sklearn上沒有,所以我們是忽略掉了

機器學習第五章

今天看了 機器學習 的第五章神經網路部分。本章主要講述的是 1.神經元是神經網路模型的最基本的單元 2.m p神經元模型包括輸入層 隱層和輸出層。2.1輸入訊號進行加權式的連線 2.2輸入層僅接受輸入,不進行函式處理,隱層和輸出層包含神經功能元 3.比較經典的神經網路的演算法是bp演算法 標準bp演...

機器學習(第五章)

最普遍的定義是 神經網路是由具有適應性的簡單單元組成的廣泛並行互聯的網路,它的組織能夠模擬生物神經系統對真實世界物體做出的互動反應。神經網路的最基本成分是神經元模型。在生物網路中,神經元的活動是以0或1的狀態存在的,乙個神經元可以接受多個神經元的訊號輸入,當所有輸入超出閾值時,接受輸入的神經元就會發...

python第五章 Python學習(第五章)

記錄所有的名片字典 card list defshow menu 顯示資訊 print 50 print 歡迎使用 名片管理系統 v1.0 print print 1.新增名片 print 2.顯示全部 print 3.搜尋名片 print print 0.退出系統 print 50 defnew ...