向kaggle大牛學習

這個已經沒時間弄了，過了enter日期.只好先學習人家咱弄的啦

每乙個driver都有200次的trace，即從0時刻的位置，到最終的位置，每乙個trace的資料大概500多個，且都將原點調整到了0，總共幾千個driver

各個driver目錄下的大多數trace都是其本人駕駛的，目標是找出does a driver drive long trips? short trips? highway trips? back roads? do they accelerate hard from stops? do they take turns at high speed? 這些特徵，進而判斷該driver目錄下的檔案是否屬於該driver。

即最終結果是

driver_trip,prob

1_1,1

1_2,1

1_3,1

...

def classify(self):
"""perform classification"""
clf = gradientboostingregressor(n_estimators=100, max_depth=4)
clf.fit(self.__traindata, self.__trainlabels)
self.__y = clf.predict(self.__testdata)

結合regressiondriver.py和startregressionslow.py看，由於每乙個訓練集得有負樣本，因此得選取幾個負樣本driver（也就是其他driver）的trace特徵加入訓練集

即訓練集的構成是：

某driver的特徵，label是一堆1，其他driver的特徵，label是對應的一堆0，然後測試集同訓練集的「某driver的特徵」

reference_data = {}
def generatedata(drivers): 
global reference_data
for driver in drivers:
reference_data[driver.identifier] = driver.generate_data_model

with open(filename, "r") as trainfile:
trainfile.readline() # skip header
啦啦啦with open(os.path.join(outdir, "pyregression_.csv".format(submission_id)), 'w') as writefile:
writefile.write("driver_trip,prob\n")
for item in results:
writefile.write("%s\n" % item)

from joblib import parallel, delayed
results = parallel(n_jobs=10)(delayed(perform_analysis)(folder) for folder in folders)
普通不並行的話是：
results = [perform_analysis(folder) for folder in folders]

10 菜鳥啟程，向大牛進發

今天練習了一些函式的建立和使用。需求獲取兩個整數中較大的那個數 class functiondemo3 public static int getmax int a int b else return b 列印99乘法表 public static void print99 system.out....

kaggle理論學習

線性回歸很簡單，用線性函式擬合資料，用 mean square error mse 計算損失 cost 然後用梯度下降法找到一組使 mse 最小的權重。lasso 回歸和嶺回歸 ridge regression 其實就是在標準線性回歸的基礎上分別加入l1 和 l2 正則化 regularizatio...

學習積累大牛

學習是什麼？為什麼要學習？如何學習？抓住重點學習。什麼是重點？能解決你的問題，那就是重點，所以要明確問題是什麼目的是什麼東西是學不完的。積累是什麼？為什麼要積累？怎麼積累？記錄關鍵點。站在巨人的肩膀上思考問題才更有效。從前者的和思路中得到的。大牛是什麼？為什麼是大牛？怎麼成為大牛？主動對關鍵點...

向kaggle大牛學習

10 菜鳥啟程，向大牛進發

kaggle理論學習

學習 積累 大牛

相關推薦

學習積累大牛