機器學習筆記

2021-10-23 12:31:44 字數 731 閱讀 6156

cart 與 id3, c4.5的區別

理論上總的來說,

c4.5是基於id3優化後產出的演算法,主要優化了關於節點分支的計算方式,優化後解決了id3分支過程中總喜歡偏向取值較多的屬性,id3是資訊增益分支:而cart一般是gini係數分支:c4.5一般是資訊增益率分支:

工程上總的來說:

cart和c4.5之間主要差異在於分類結果上,cart可以回歸分析也可以分類,c4.5只能做分類;c4.5子節點是可以多分的,而cart是無數個二叉子節點;以此拓展出以cart為基礎的「樹群」random forest , 以回歸樹為基礎的「樹群」gbdt

樣本資料的差異:

id3只能對分類變數進行處理,c4.5和cart可以處理連續和分類兩種自變數

id3對缺失值敏感,而c4.5和cart對缺失值可以進行多種方式的處理

只從樣本量考慮,小樣本建議考慮c4.5、大樣本建議考慮cart。c4.5處理過程中需對資料集進行多次排序,處理成本耗時較高,而cart本身是一種大樣本的統計方法,小樣本處理下泛化誤差較大

目標因變數的差異:

id3和c4.5只能做分類,cart(分類回歸樹)不僅可以做分類(0/1)還可以做回歸(0-1)

id3和c4.5節點上可以產出多叉(低、中、高),而cart節點上永遠是二叉(低、非低)

樣本特徵上的差異:

特徵變數的使用中,多分的分類變數id3和c4.5層級之間只單次使用,cart可多次重複使用

決策樹產生過程中的優化差異:

機器學習學習筆記

2.機器學習書籍 機器學習tom,這個是老經典,就是翻譯欠佳 prml,這個書正版的超貴,但是比較新且系統,可以通過其他途徑搞個副本。3.自己動手編碼實現2 3種經典演算法,比如svm,lr,bpnn等。4.了解spark上目前支援的機器學習方法的用途和用法,這個在日常工作中會用到。知道的多一點,方...

機器學習 學習筆記

關於梯度下降演算法的優化與 會有三種方法優化梯度下降演算法 1.共軛梯度下降法 conjugate 2.變尺度法 bfgs 3.限制變尺度法 l bfgs 這些方法的好處是 1.不用選擇學習速率 2.收斂的速度快,執行效率高 但是她們的缺點在於 實現她們的方法太複雜,所以我們就可以使用語言的內建庫函...

機器學習 學習筆記

監督學習 我們的學習演算法使用的資料是給出正確答案的資料,然後我們執行學習演算法,出更多的正確答案。理解為像深度需學習類似,利用訓練樣本訓練處學習模型,然後用測試樣本對學習到的模型進行檢測,輸出 結果。無監督學習 可以理解為對於學習演算法所使用的資料集並沒有給出正確答案,學習演算法就是要對這資料集進...