ThunderGBM 快成一道閃電的梯度提公升決策樹

想在 gpu 上使用使用閃電般快速的提公升方法？了解這個庫就好了。在很多任務上，它都比 lightgbm 和 xgboost 快。

儘管近年來神經網路復興並大為流行，但提公升演算法在訓練樣本量有限、所需訓練時間較短、缺乏調參知識等場景依然有其不可或缺的優勢。目前代表性的提公升方法有 catboost、light gbm 和 xgboost 等，本文介紹一項新的開源工作，它構建了另一種基於 gpu 的極速梯度提公升決策樹和隨機森林演算法。

那麼我們為什麼加速 gbdt 和隨機森林？2017 年，乙份 kaggle 調查顯示，資料探勘和機器學習從業者中分別有 50%、46% 和 24% 的人使用決策樹、隨機森林和 gbm。gbdt 和隨機森林經常被用來建立當前最佳的資料科學解決方案，這就要求我們能使用 gpu 在大型資料集上完成高效訓練。

兩棵決策樹的整合方法，選自 xgboost 文件。

儘管 xgboost 等庫已經支援 gpu 了，但畢竟不是一開始就為 gpu 而設計的，因此在優化和加速上會有一些瑕疵。而 thundergbm 旨在幫助使用者輕鬆高效地應用 gbdt 和隨機森林來解決問題，它可以利用 gpu 完成高效訓練。

對於 gpu 而言，thundergbm 在很多任務上都比其它幾個庫要快。

thundergbm 的主要特徵如下：

thundergbm **和訓練的整體流程。

thundergbm 主要作者包括新加坡國立大學的 zeyi wen 和 qinbin li、華南理工大學的 jiashuai shi 等，指導教師為 nus 的 bingsheng he。

入門指南

thundergbm 要求開發環境滿足 cmake 2.8 或更高版本；對於 linux，使用 gcc 4.8 或更高版本；c++boost； cuda 8 或更高版本。

git clone thundergbm# under the directory of thundergbmgit submodule init cub && git submodule update

複製**

在 linux 上構建：

#under the directory of thundergbmmkdir build && cd build && cmake .. && make -j

複製**

快速測試：

./bin/thundergbm-train ../dataset/machine.conf./bin/thundergbm-predict ../dataset/machine.conf複製**

成功執行後，你將看到 rmse = 0.489562。

相關研究

如果讀者對實現的技術及模型細節感興趣，可以查閱原**：

ThunderGBM 快成一道閃電的梯度提公升決策樹

一道演算法題

一道演算法題

一道oracle試題

ThunderGBM 快成一道閃電的梯度提公升決策樹

一道演算法題

一道演算法題

一道oracle試題

相關推薦