京東比賽整理

2021-09-26 02:40:33 字數 2648 閱讀 6372

(一)資料介紹

訓練資料

**資料

原始資料

表名數量

內容user

160w

使用者資訊

action

3721w

使用者-商品行為

comment

177w

shop

1w店鋪資訊

product

35w商品資訊

資料概況

行為數量內容

type=2

219w

大概1/20

sku_id(type=2)

12w購買的商品

測試集訓練集

train

test

newuser

153w

16w6w

user_cate

464w

17w12w

user_cate_shop

1390w

17w14w

user_sku

2214w

18w16w

(二)評價指標

其中:precise為準確率,recall為召回率; f11

是label=1或0的f1值,f12

是pred=1或0的f1值。

思考一:

是不是有的使用者只瀏覽不買東西,那這些使用者就幾乎不可能買東西,可刪。

思考二:

最後一周加購物車的是不是很可能買?

二分類:

問題難點

把問題看作二分類問題

特徵工程:

(一)xgb引數

通用引數

booster引數

學習目標引數

(二)調參過程

import xgboost as xgb

from xgboost.sklearn import xgbclassifier

from sklearn import cross_validation, metrics

from sklearn.grid_search import gridsearchcv

parameters =

xlf = xgb.xgbclassifier(max_depth=10,

learning_rate=0.01,

n_estimators=2000,

silent=true,

objective='binary:logistic',

nthread=-1,

gamma=0,

min_child_weight=1,

max_delta_step=0,

subsample=0.85,

colsample_bytree=0.7,

colsample_bylevel=1,

reg_alpha=0,

reg_lambda=1,

scale_pos_weight=1,

seed=1440,

missing=none)

gsearch = gridsearchcv(xlf, param_grid=parameters, scoring='accuracy', cv=3)

gsearch.fit(train_x, train_y)

print("best score: %0.3f" % gsearch.best_score_)

print("best parameters set:")

best_parameters = gsearch.best_estimator_.get_params()

for param_name in sorted(parameters.keys()):

print("\t%s: %r" % (param_name, best_parameters[param_name]))

(三)處理不平衡

大概70:1,xgb中有scale_pos_weight,可以快速收斂,沒有其他特殊處理,因為不知道正負例比例,也不知道最終提交多少合適,都是根據輸出的概率調,只要概率能保證正例的概率比負例大即可。

(四)特徵選擇

(五)模型融合

最終線性融合最好

(六)gbdt、xgb、lgb區別

rf與gbdt之間的區別與聯絡?

【gbdt優缺點】

【gbdt和xgboost比較】

【為什麼用泰勒展開】

【xgboost和lightbgm比較】

模型融合之stacking方法

京東資料採集整理標準化流程介紹

用電商資料採集軟體採集過資料的朋友就應該很清楚,我們輸入指令通過採集軟體將我們需要的 天貓 京東等平台資料採集回來後,其實裡面包含了很多配件及其他不相關的產品。如果是需要需要用這批資料做產品的分析我們需要刪除配件,整理品牌 型號。整理這過程極其枯燥乏味,而且費眼力,很多客戶雖然花錢買了原始資料,但是...

牛客 比賽(比賽贏得概率)

你在打比賽,這場比賽總共有12個題 對於第i個題,你的隊伍有a i 的機率解決她 如果解決不了她呢?由於所有人討論的都很大聲 所以你有b i 的概率從左邊那個隊那裡聽會這個題的做法 有c i 的概率從右邊那個隊那裡聽會這個題的做法 請問最終你們隊伍解出0 12題的概率分別是多少 第一行12個數表示a...

python京東商品 Python爬取京東商品資料

對京東某一商品資訊頁面的html 進行分析。能夠發現它的圖書產品資訊頁面都含有這樣一段 不同類的商品頁面有些不同 window.pageconfig 顯然這就是我們須要的商品資訊,python 例如以下 import json import re import urllib for i in ran...