天池新人實戰賽之 離線賽 嘗試(四)

2021-08-19 23:13:23 字數 1576 閱讀 5169

之前的特徵值有10幾個,有點少了。增加特徵值到40多個。特徵選取參考

使用pyspark.ml.classification import gbtclassifier 裡的模型。

幾個引數解釋:

#maxiter 迭代次數

#maxdepth 樹的最大深度

#stepsize 每次迭代優化步長(學習速率)

#seed 隨機種子

在正反訓練比例為1比1000左右做了幾組測試。(驗證集正反例比例為1:1)

gbtclassifier(maxiter=20,maxdepth=10,stepsize=0.4,seed=50  

testing accuracy is 48.83653286794648 %

testing f1 is 48.92483484100073 %

gbtclassifier(maxiter=20,maxdepth=10,stepsize=0.2,seed=50

testing accuracy is 48.632926119837116 %

testing f1 is 48.89735152944631 %

gbtclassifier(maxiter=20,maxdepth=10,stepsize=0.1,seed=50

無太大提公升

可以看出調整引數無太大提公升,考慮修改訓練集的正反比例為1比30

testing accuracy is 52.065154159395 %

testing f1 is 52.344773727470994 %

有一些提公升

再選擇 1比20 和1比100的比例進行對比

1比20:

testing accuracy is 50.78534031413613 %

testing f1 is 50.98678995075511 %

1比100:

testing accuracy is 48.57475276323444 %

testing f1 is 48.89881100109361 %
再做乙個1比50:

testing accuracy is 50.08726003490401 %

testing f1 is 50.42111031072746 %

對比下來, 訓練資料就用1比30的正反比例比較不錯。

按這個訓練模型,進行**,提交結果,準確率依舊不高。

2.參考該比賽決賽團隊的方案,對使用者組進行清洗,篩選 只看不買和對商品子集無購買的使用者。

對反例資料集進行取樣 ,控制訓練資料的正反比例1比20~1比30之間。

驗證資料集 只用正例資料:

maxiter=20,maxdepth=10,stepsize=0.1,seed=50,驗證結果:

maxiter=30,maxdepth=10,stepsize=0.1,seed=123123

驗證結果為:

testing accuracy is 23.943661971830984 %

testing f1 is 38.63636363636363 %

天池新人賽 資料探勘

組別 wlh 奧林匹克百公尺跑資料 python 程式設計是基於python的環境進行,可以在環境中構造資料模型 畫出建立的方程模型影象和散點圖的影象,進行對比 x test np.linspace 1896,2008,100 none 在文件中讀取x的值 f test w0 w1 x test 之...

從零開始天池新人離線賽 資料預處理

作為乙個資料探勘和python程式設計的雙面小白,從零就真的是從一張白紙開始了。今天,首先學習怎麼將阿里給我們的csv檔案匯入到python中 import csv itemcsv file d test item.csv rb r1 csv.reader itemcsv 到這步為止,初步將該ite...

阿里天池新人賽 之街景字元識別(1)

正式賽時間 2020.5.14 2020.6.24 比賽 所有的資料 訓練集 驗證集和測試集 的標註使用json格式,並使用檔名進行索引。如果乙個檔案中包括多個字元,則使用列表將字段進行組合。賽題思路分析 賽題本質是分類問題,需要對的字元進行識別。但賽題給定的資料中不同中包含的字元數量不等,如下圖所...