天池新人實戰賽之離線賽嘗試（四）

之前的特徵值有10幾個，有點少了。增加特徵值到40多個。特徵選取參考

使用pyspark.ml.classification import gbtclassifier 裡的模型。

幾個引數解釋：

#maxiter 迭代次數

#maxdepth 樹的最大深度

#stepsize 每次迭代優化步長（學習速率）

#seed 隨機種子

在正反訓練比例為1比1000左右做了幾組測試。（驗證集正反例比例為1：1）

gbtclassifier(maxiter=20,maxdepth=10,stepsize=0.4,seed=50

testing accuracy is 48.83653286794648 %

testing f1 is 48.92483484100073 %

gbtclassifier(maxiter=20,maxdepth=10,stepsize=0.2,seed=50

testing accuracy is 48.632926119837116 %

testing f1 is 48.89735152944631 %

gbtclassifier(maxiter=20,maxdepth=10,stepsize=0.1,seed=50

無太大提公升

可以看出調整引數無太大提公升，考慮修改訓練集的正反比例為1比30

testing accuracy is 52.065154159395 %

testing f1 is 52.344773727470994 %

有一些提公升

再選擇 1比20 和1比100的比例進行對比

1比20：

testing accuracy is 50.78534031413613 %

testing f1 is 50.98678995075511 %

1比100：

testing accuracy is 48.57475276323444 %

testing f1 is 48.89881100109361 %

再做乙個1比50：

testing accuracy is 50.08726003490401 %

testing f1 is 50.42111031072746 %

對比下來，訓練資料就用1比30的正反比例比較不錯。

按這個訓練模型，進行**，提交結果，準確率依舊不高。

2.參考該比賽決賽團隊的方案，對使用者組進行清洗，篩選只看不買和對商品子集無購買的使用者。

對反例資料集進行取樣，控制訓練資料的正反比例1比20~1比30之間。

驗證資料集只用正例資料:

maxiter=20,maxdepth=10,stepsize=0.1,seed=50，驗證結果：

maxiter=30,maxdepth=10,stepsize=0.1,seed=123123

驗證結果為：

testing accuracy is 23.943661971830984 %

testing f1 is 38.63636363636363 %

天池新人賽資料探勘

組別 wlh 奧林匹克百公尺跑資料 python 程式設計是基於python的環境進行，可以在環境中構造資料模型畫出建立的方程模型影象和散點圖的影象，進行對比 x test np.linspace 1896,2008,100 none 在文件中讀取x的值 f test w0 w1 x test 之...

從零開始天池新人離線賽資料預處理

作為乙個資料探勘和python程式設計的雙面小白，從零就真的是從一張白紙開始了。今天，首先學習怎麼將阿里給我們的csv檔案匯入到python中 import csv itemcsv file d test item.csv rb r1 csv.reader itemcsv 到這步為止，初步將該ite...

阿里天池新人賽之街景字元識別（1）

正式賽時間 2020.5.14 2020.6.24 比賽所有的資料訓練集驗證集和測試集的標註使用json格式，並使用檔名進行索引。如果乙個檔案中包括多個字元，則使用列表將字段進行組合。賽題思路分析賽題本質是分類問題，需要對的字元進行識別。但賽題給定的資料中不同中包含的字元數量不等，如下圖所...

天池新人實戰賽之 離線賽 嘗試（四）

天池新人賽 資料探勘

從零開始天池新人離線賽 資料預處理

阿里天池新人賽 之街景字元識別（1）

相關推薦

天池新人實戰賽之離線賽嘗試（四）

天池新人賽資料探勘

從零開始天池新人離線賽資料預處理

阿里天池新人賽之街景字元識別（1）