利用spark的mllib構建GBDT模型

2021-07-31 11:02:55 字數 854 閱讀 6473

gbdt模型的介紹,我主要是參考部落格:

在這裡,我主要歸納以下幾點要素:

1.gbdt中的樹都是回歸樹;

2.回歸樹節點分割點衡量最好的標準是葉子個數的上限;

3.gbdt的核心在於,每個棵樹學的是之前所有樹結論和的殘差,這個殘差就是乙個加**值後能得到真實值的累加量;

4.gb為gradient boosting, boosting的最大好處在於,每一步的殘差計算其實變相地增大了分錯instance的權重,而已經分對的instance則趨向於0;

5.gbdt採用乙個shrinkage策略,本質上,shrinkage為每棵樹設定了乙個weight,累加時要乘以這個weight,但和gradient並沒有關係。

public

void

trainmodel()

public

void predict()

static

class

prediction

implements

function

>

public tuple2call(labeledpoint p) throws exception

}static

class

countsquareerror

implements

function

, double>

}static

class

reducesquareerror

implements

function2

}

關於具體的**放至我的github上:

spark之MLlib機器學習 線性回歸

2 編寫scala原始碼 為了進一步熟悉scala程式語言,建議自己把 敲一次。import org.apache log4j import org.apache spark.import org.apache spark mllib regression linearregressionwiths...

Spark 大資料分析 MLlib,基本統計

statistics的colstats函式是列統計方法,該方法可以計算每列最大值 最小值 平均值 方差值 l1範數 l2範數。val datapath e scala testdata sample stat.txt val rdd sc.textfile datapath map split ma...

Spark0 9分布式執行MLlib的協同過濾

協同過濾推薦 collaborative filtering recommendation 是在資訊過濾和資訊系統中正迅速成為一項很受歡迎的技術。與傳統的基於內容過濾直接分析內容進行推薦不同,協同過濾分析使用者興趣,在使用者群中找到指定使用者的相似 興趣 使用者,綜合這些相似使用者對某一資訊的評價,...