向kaggle大牛學習

2022-09-11 15:06:24 字數 1650 閱讀 4854

這個已經沒時間弄了,過了enter日期.只好先學習人家咱弄的啦

每乙個driver都有200次的trace,即從0時刻的位置,到最終的位置,每乙個trace的資料大概500多個,且都將原點調整到了0,總共幾千個driver

各個driver目錄下的大多數trace都是其本人駕駛的,目標是找出does a driver drive long trips? short trips? highway trips? back roads? do they accelerate hard from stops? do they take turns at high speed? 這些特徵,進而判斷該driver目錄下的檔案是否屬於該driver。

即最終結果是

driver_trip,prob

1_1,1

1_2,1

1_3,1

...

def classify(self):

"""perform classification"""

clf = gradientboostingregressor(n_estimators=100, max_depth=4)

clf.fit(self.__traindata, self.__trainlabels)

self.__y = clf.predict(self.__testdata)

結合regressiondriver.py和startregressionslow.py看,由於每乙個訓練集得有負樣本,因此得選取幾個負樣本driver(也就是其他driver)的trace特徵加入訓練集

即訓練集的構成是:

某driver的特徵,label是一堆1,其他driver的特徵 ,label是對應的一堆0,然後測試集同訓練集的「某driver的特徵」

reference_data = {}

def generatedata(drivers):

global reference_data

for driver in drivers:

reference_data[driver.identifier] = driver.generate_data_model

with open(filename, "r") as trainfile:

trainfile.readline() # skip header

啦啦啦with open(os.path.join(outdir, "pyregression_.csv".format(submission_id)), 'w') as writefile:

writefile.write("driver_trip,prob\n")

for item in results:

writefile.write("%s\n" % item)

from joblib import parallel, delayed

results = parallel(n_jobs=10)(delayed(perform_analysis)(folder) for folder in folders)

普通不並行的話是:

results = [perform_analysis(folder) for folder in folders]

10 菜鳥啟程,向大牛進發

今天練習了一些函式的建立和使用。需求 獲取兩個整數中較大的那個數 class functiondemo3 public static int getmax int a int b else return b 列印99乘法表 public static void print99 system.out....

kaggle理論學習

線性回歸很簡單,用線性函式擬合資料,用 mean square error mse 計算損失 cost 然後用梯度下降法找到一組使 mse 最小的權重。lasso 回歸和嶺回歸 ridge regression 其實就是在標準線性回歸的基礎上分別加入l1 和 l2 正則化 regularizatio...

學習 積累 大牛

學習是什麼?為什麼要學習?如何學習?抓住重點學習。什麼是重點?能解決你的問題,那就是重點,所以要明確問題是什麼 目的是什麼 東西是學不完的。積累是什麼?為什麼要積累?怎麼積累?記錄關鍵點。站在巨人的肩膀上思考問題才更有效。從前者的 和思路中得到的。大牛是什麼?為什麼是大牛?怎麼成為大牛?主動對關鍵點...