2017易觀OLAP演算法大賽

2021-08-04 20:34:18 字數 1824 閱讀 1396

根據提供的應用轉化和olap場景,給出具體的方案,先利用測試資料集在指定測試集群上執行給出測試結果, 最終易觀會用實際測試資料在測試集群上跑整體資料並給出用時排名。

開源排行榜,第1名現金人民幣10萬(稅前)獎勵, 前3名易觀證書

商業排行榜,前3名易觀證書

即刻報名參賽

漏斗分析是幫助運營人員分析乙個多步驟過程中每一步的轉化與流失情況。

假設我們在購買商品的過程中,需要觸發的事件包括 「啟動」,「登陸」,「搜尋商品」,「檢視商品」,「生成訂單」等。 運營人員需要分析某段時間內(比如2023年1月5號到2023年2月5號),在全部使用者中依次有序觸發 「登陸」→「搜尋商品」→「檢視商品」→「生成訂單「 事件的人群的轉化流失情況,即計算全部使用者中觸發了「登陸」事件的總人數a,a中觸發「搜尋商品」事件的總人數b,b中觸發「檢視商品」事件的總人數c,以及c中觸發「生成訂單」事件的總人數d。展現形式如下:

同時,漏斗分析中包含「時間視窗」的概念,即需要保證所有事件在同乙個視窗期內發生。比如時間視窗為1天,使用者001觸發「搜尋商品」事件的時間和觸發「登陸」事件的時間間隔在一天內,「搜尋商品」事件才有效,否則視為無效。同理,使用者001觸發「檢視商品」事件的時間和觸發「登陸」事件的時間間隔也必須在一天內。時間視窗可以為1天、3天、7天或者1小時、6小時等任意長時間段。 最後,在漏斗分析中,可以設定事件屬性。比如「搜尋商品」事件,可以設定只計算「搜尋商品」事件的屬性中「content」欄位為「computer」的使用者。具體見詳細資料。

資料為文字檔案格式,具體包含欄位有:

(1)使用者id,字串型別

(2)時間戳,毫秒級別,long型別

(3)事件id,int型別,包含10001到10010十個事件

(4)事件名稱,字串型別,包含啟動、登陸、搜尋商品等十個事件

(5)事件屬性,json串格式

(6)日期,字串型別

資料總條數6億左右,日期範圍:2017/01/01到2017/02/28。

所有提交的方案都必須可行,開源組須公開思路及源**,商業組只須公開思路,具體使用哪些軟體可自行設定。 評委會隨機設定漏斗需求,所有參賽方案根據具體需求計算結果,在結果準確的基礎上,耗時最少者獲勝。漏斗需求舉例如下:

(1)計算2023年1月份中,依次有序觸發「搜尋商品」、「檢視商品」、「生成訂單」的使用者轉化情況,且時間視窗為1天。

(1)底層儲存用hdfs

(2)建立hive表,並以應用標識、日期、事件名稱為分割槽

(3)查詢用presto,並自定義udaf,或者利用spark core自定義相同邏輯

硬體系統配置

centos7、16核|16g記憶體、ssd資料盤300g的ucloud雲主機4臺

目前易觀在以上配置的4臺機器上測試漏斗耗時統計如下:

1、查詢2023年1月份,時間視窗為7天,事件順序為10001、10004、10008的漏斗,結果為[3999974, 3995900, 3608934],24秒

2、查詢2023年1月份,時間視窗為3天,事件順序為10004、10008、10010的漏斗,結果為[3999422,3573367,697506],13秒

2017易觀OLAP演算法大賽

根據提供的應用轉化和olap場景,給出具體的方案,先利用測試資料集在指定測試集群上執行給出測試結果,最終易觀會用實際測試資料在測試集群上跑整體資料並給出用時排名。開源排行榜,第1名現金人民幣10萬 稅前 獎勵,前3名易觀證書 商業排行榜,前3名易觀證書 即刻報名參賽 漏斗分析是幫助運營人員分析乙個多...

氪信團隊獲得易觀OLAP大賽冠軍

國內資料分析領域最受矚目的 2019 易觀第三屆演算法大賽 olap session分析已於 10 月 27 日落下帷幕,氪信團隊以約 300 毫秒準確處理 8 億條行為資料贏得olap冠軍。300 毫秒準確處理 8 億條行為資料是什麼概念?在相同的場景下,其他隊www.cppcns.com伍的處理...

第2屆易觀演算法大賽歷經考驗 4組演算法新人王強勢誕生

為吸引優秀演算法人才,促進大資料與實體經濟的深度融合,第 2 屆易觀演算法大賽在歷時100 天的激烈角逐,700 個參賽團隊的比拼對決,經過研發內部測試 正式環境測試和易觀正式環境跑bench mark三大階段後,技術黑馬終於強勢程式設計客棧誕生 本次大賽共設漏斗計算規則和性別年齡 兩大賽題,每一賽...