機器學習常用演算法原理梳理

2021-10-02 16:13:35 字數 1534 閱讀 6424

adaboost、gbdt、xgboost、lightgbm原理梳理與辨析

首先,這四個演算法都是整合演算法boosting框架下的。根據boosting策略不同可以分為兩大類,adaboost一類,gbdt、xgboost、lightgbm一類。

3、gbdt

4、xgboost

5、lightgbm

6、svm

boosting方法是一種比較經典的整合方法就,在分類問題中,boosting方法通過改變訓練樣本的權重(如增大分類錯誤的樣本的權重,減小分類正確的樣本的權重),更加關注分類錯誤的樣本,迭代學習多個分類器,並將這些分類器進行線性組合,從而提高分類的效能。

adaboost是比較具有代表性的boosting演算法。

對於boosting方法,有兩個問題需要解答

1、在每一輪如何改變訓練樣本的權重或概率分布

2、如何將弱分類器組合成乙個強分類器

對於第乙個問題,adaboost通過提高那些被前一輪弱分類器錯誤分類樣本的權重,降低那些正確分類樣本的權重,使分類器更加注意錯誤分類錯誤的樣本

對於第二個問題,adaboost使用加權表決的方法,及將迭代過程中產生的弱分類器線性加權相加。其中分類效果好的弱分類器賦予較大的權重,使其在表決中起到較大的作用,分類效果差的賦予較小的權重,在表決中起到較小的作用。

gbdt演算法的集學習器是cart回歸樹。cart(classification and regression tree)是同id3,,c4.5一樣,比較經典的樹模型。cart假設決策樹是二叉樹,內部結點特徵的取值為「是」和「否」,這樣的決策樹實際上是遞迴的二分每個特徵,即將特徵空間(輸入空間)劃分為有限單元,並在這些單元上確定**的概率分布。

gbdt與adaboost的不同之處在於boosting策略的不同。gbdt是一種加法模型,其並不顯性的改變樣本的權重,而是通過擬合上一輪分類器的殘差(或損失函式的負梯度值)來產生新的cart樹,新樹與上一輪的分類器相加,得到新的分類器。

gbdt演算法過程如下:

演算法原理簡介:

xgboost是gbdt的工程實現,將gbdt的一階泰勒展開擴充套件至二階泰勒展開。通過不斷地新增樹,不斷地進行特徵**來生長一棵樹,每次新增乙個樹,其實是學習乙個新函式,去擬合上次**的殘差。當我們訓練完成得到k棵樹,我們要**乙個樣本的分數,其實就是根據這個樣本的特徵,在每棵樹中會落到對應的乙個葉子節點,每個葉子節點就對應乙個分數,最後只需要將每棵樹對應的分數加起來就是該樣本的**值.

(待補充)

演算法原理簡介:

它和xgboost一樣是對gbdt的高效實現,對xgboost的改進,原理上它和gbdt及xgboost類似,都採用損失函式的負梯度作為當前決策樹的殘差近似值,去擬合新的決策樹。

(待補充)

演算法基本原理簡介:

尋找乙個超平面可以最大化分類間隔,判別模型。

(待補充)

機器學習 GBDT演算法梳理

學習任務 前向分步演算法 負梯度擬合 損失函式 回歸二分類,多分類 正則化優缺點 sklearn引數 應用場景 前言 提公升 boosting 方法是整合學習方法的一種,在分類問題中,它通過改變訓練樣本的權重,學習多個分類器,將弱分類器組裝成乙個強分類器,提高分類的效能。其最具代表性的是adaboo...

機器學習 線性回歸演算法梳理

學習內容 機器學習的一些概念 有監督 無監督 泛化能力 過擬合欠擬合 方差和偏差以及各自解決辦法 交叉驗證 線性回歸的原理 線性回歸損失函式 代價函式 目標函式 優化方法 梯度下降法 牛頓法 擬牛頓法等 線性回歸的評估指標 sklearn引數詳解 1.基本概念 有監督 訓練資料有標記資訊,如分類和回...

機器學習基礎演算法梳理 2

1.3 邏輯回歸損失函式 1.4 優缺點 1.5 樣本不均衡解決方法 二 正則化與模型評估 2.2 評估指標 2.2.1 混淆矩陣 邏輯回歸於線性回歸實際上有很多相似之處,它們都屬於乙個族群,即廣義線性模型。這一模型中的形式基本差不多,基於模型中資料的特徵進行建模,所解決的問題均以資料為導向的連續或...