Task4 LightGBM演算法梳理

lightgbm介紹及引數調優

lightgbm——提公升機器演算法（**+理論+安裝方法+python**）

lightgbm 中文文件

lightgbm 中文文件 github

下面這個**給出了xgboost和lightgbm之間更加細緻的效能對比，包括了樹的生長方式，lightgbm是直接去選擇獲得最大收益的結點來展開，而xgboost是通過按層增長的方式來做，這樣呢lightgbm能夠在更小的計算代價上建立我們需要的決策樹。當然在這樣的演算法中我們也需要控制樹的深度和每個葉子結點的最小資料量，從而減少過擬合。

xgboost

lightgbm

樹木生長演算法

按層生長的方式

有利於工程優化，但對學習模型效率不高

直接選擇最大收益的節點來展開，在更小的計算代價上去選擇我們需要的決策樹

控制樹的深度和每個葉子節點的資料量，能減少過擬合

劃分點搜尋演算法

對特徵預排序的方法

直方圖演算法：將特徵值分成許多小筒，進而在筒上搜尋**點，減少了計算代價和儲存代價，得到更好的效能。另外資料結構的變化使得在細節處的變化理上效率會不同

記憶體開銷

8個位元組

1個位元組

劃分的計算增益

資料特徵

容器特徵

快取記憶體優化

無在higgs資料集上加速40%

類別特徵處理

無在expo資料集上速度快了8倍

官方主頁

github主頁

lightgbm大戰xgboost

lightgbm介紹及引數調優

lightgbm的並行優化

lightgbm原生支援並行學習，目前支援

特徵並行(featrue parallelization)

資料並行(data parallelization)

基於投票的資料並行(voting parallelization)

lightgbm針對這兩種並行方法都做了優化。

lightgbm使用的直方圖演算法能很好的解決這類問題。

傳統的機器學習一般不能支援直接輸入類別特徵，需要先轉化成多維的0-1特徵，這樣無論在空間上還是時間上效率都不高。lightgbm通過更改決策樹演算法的決策規則，直接原生支援類別特徵，不需要轉化，提高了近8倍的速度。

機器學習挑戰獲勝解決方案

官方引數

2014 年 3 月，xgboost 最早作為研究專案，由陳天奇提出

2017 年 1 月，微軟發布首個穩定版 lightgbm

2017 年 4 月，俄羅斯頂尖技術公司 yandex 開源 catboost

catboost官網

Task4 LightGBM演算法梳理

LightGBM演算法梳理

機器學習演算法整合學習 lightGBM

學習筆記Task4

Task4 LightGBM演算法梳理

LightGBM演算法梳理

機器學習演算法 整合學習 lightGBM

學習筆記Task4

相關推薦

機器學習演算法整合學習 lightGBM