kaggle DC比賽程序2

2021-09-20 08:19:58 字數 1627 閱讀 3497

teamviewer介面

開啟xshell

teamviewer.gif

tips:

關於本次會議:

介紹個人在 演算法 / 程式設計 / 編輯方面的能力;更願意承擔的工作;

能拿出來參與比賽的時間,中間會有什麼個人的重要時間節點;

以下為個人示例:

我對三個方面沒有偏重,但鑑於大家對計算環境不太了解,我更傾向於承擔程式設計方面的工作,當然是會參與演算法的研究和迭代的;

基本每天晚上的9:30之後、週末的一部分時間、上班的閒暇之餘均可以。

之前的工作與本次比賽可能用到的地方:

使用者駕駛行為評分 / 使用者畫像分析 / gps、g-sensor原始資料清洗校準 / 自動化資料報告。。。etc.

稍後我把一些簡單的資料處理操作示例給大家錄gif。

我的提案:

週六晚上前,必須完成如下任務中的一項:

乙個可復現的案例(**、演算法可復現),並說明可借鑑地方,紐約taxi的案例也行,這方面有大量素材;

提出自己的演算法文件或流程,不需要完備。

昨天簡單試驗

上傳資料

注意:id string,lat string,lon double,status int,stamp string

hadoop fs -mkdir /user/yyl;

hadoop fs -put /root/temp/* /user/yyl/hoho/;

#匯入過程中發現缺少7、13兩天資料,原因未知。

create table if not exists trip_stat_hoho (id string,lat string,lon double,status int,stamp string ) row format delimited fields terminated by ',' lines terminated by '\n' stored as textfile;

load data '/user/yyl/hoho/*' into table trip_stat_hoho;

load data inpath '/user/yyl/hoho/*' into table trip_stat_hoho;

"create table if not exists trip_stat_hoho1 (id string,lat string,lon double,status int,stamp string ) row format delimited fields terminated by ',' location '/user/yyl/hoho/user'")

sql(hivecontext,"create table if not exists trip_stat_hoho1 (id string,lat string,lon double,status int,stamp string ) row format delimited fields terminated by ',' location '/user/yyl/hoho/user'")

簡單分析

在spark中執行了count:

除去乙個放在dropbox的檔案共43g

近十億條資料

kaggle DC比賽程序5

資料清洗 載客狀態的真實性 gps的連續性 因為現在預估不出這兩問題造成的影響,可以先跳過,先做第二步 資料抽取 選取和 目標軌跡相同的行程 q 相似軌跡識別演算法?單使用者篩選or全體篩選?這裡本來一開始是打算直接學習全量資料,得到任意兩點的時間 模型 不可行,kill 特徵工程 特徵選擇 各種 ...

kaggle DC比賽程序3 參考資料

本次比賽可借鑑的比賽有 nyc taxi 因為資料開源nyc open data,所以網上有大量的研究。ecml pkdd 15 taxi trajectory prediction kdd支援的在kaggle社群的比賽。381 teams 冠軍採訪 ecml pkdd 15 taxi trip t...

比賽2 總結

t2t3 t4t5總結 給定乙個整數序列a1,a2 判斷是否能將其分為奇數段 每段不為空0 每段具有奇數長度且開始和結束為奇數。includeusing namespace std int main cout yes 輸入整數序列a1,a2 點座標為 i,a i 是否有可能畫出兩條平行且非重疊的線,...