Task4 LightGBM演算法梳理

2021-09-26 02:42:37 字數 1617 閱讀 9566

lightgbm介紹及引數調優

lightgbm——提公升機器演算法(**+理論+安裝方法+python**)

lightgbm 中文文件

lightgbm 中文文件 github

下面這個**給出了xgboost和lightgbm之間更加細緻的效能對比,包括了樹的生長方式,lightgbm是直接去選擇獲得最大收益的結點來展開,而xgboost是通過按層增長的方式來做,這樣呢lightgbm能夠在更小的計算代價上建立我們需要的決策樹。當然在這樣的演算法中我們也需要控制樹的深度和每個葉子結點的最小資料量,從而減少過擬合。

xgboost

lightgbm

樹木生長演算法

按層生長的方式

有利於工程優化,但對學習模型效率不高

直接選擇最大收益的節點來展開,在更小的計算代價上去選擇我們需要的決策樹

控制樹的深度和每個葉子節點的資料量,能減少過擬合

劃分點搜尋演算法

特徵預排序的方法

直方圖演算法:將特徵值分成許多小筒,進而在筒上搜尋**點,減少了計算代價和儲存代價,得到更好的效能。另外資料結構的變化使得在細節處的變化理上效率會不同

記憶體開銷

8個位元組

1個位元組

劃分的計算增益

資料特徵

容器特徵

快取記憶體優化

無在higgs資料集上加速40%

類別特徵處理

無在expo資料集上速度快了8倍

官方主頁

github主頁

lightgbm大戰xgboost

lightgbm介紹及引數調優

lightgbm介紹及引數調優

lightgbm的並行優化

lightgbm原生支援並行學習,目前支援

特徵並行(featrue parallelization)

資料並行(data parallelization)

基於投票的資料並行(voting parallelization)

lightgbm針對這兩種並行方法都做了優化。

lightgbm使用的直方圖演算法能很好的解決這類問題。

傳統的機器學習一般不能支援直接輸入類別特徵,需要先轉化成多維的0-1特徵,這樣無論在空間上還是時間上效率都不高。lightgbm通過更改決策樹演算法的決策規則,直接原生支援類別特徵,不需要轉化,提高了近8倍的速度。

機器學習挑戰獲勝解決方案

官方引數

2014 年 3 月,xgboost 最早作為研究專案,由陳天奇提出

2017 年 1 月,微軟發布首個穩定版 lightgbm

2017 年 4 月,俄羅斯頂尖技術公司 yandex 開源 catboost

catboost官網

LightGBM演算法梳理

leaf wise vs level wise 特徵並行和資料並行 順序訪問梯度 直接支援類別特徵 調參 參考資料 lightgbm包含兩個關鍵點 1 light,輕量級 2 gbm,梯度提公升機。lightgbm是乙個梯度boosting框架,使用基於學習演算法的決策樹。具有以下特點 它是針對xg...

機器學習演算法 整合學習 lightGBM

lightgbm 是整合學習的一種,是梯度提公升決策樹的高效實現。主要有幾方面優化 機器學習 lightgbm a highly efficient gradient boosting decision tree lightgbm 特性 features lightgbm 直方圖演算法用於搜尋特徵的...

學習筆記Task4

趕專案進度,僅了解 神經網路是由具有適應性的簡單單元所組成的廣泛並行互連的網路,它的組織能夠模擬生物神經系統對真實世界所做出的的互動反應。神經網路最基本的成分是神經元模型,當通過神經元的資訊信好超過某乙個閾值,那麼該神經元就會啟用,從而作用於下乙個神經元。在m p神經元模型中,神經元接收到來自n個其...