數倉dw怎麼建 網易嚴選如何打造數倉規範和評價體系

2021-10-14 00:26:17 字數 3232 閱讀 7505

資料為王的時代,資料量從最初的幾十 g,慢慢沉澱到幾十 t,甚至幾十 pb 的量。資料工程師,也從最初的 etl 工程師慢慢成長為資料全棧工程師:採集、同步、模型、離線、實時、規範、平台、工具、產品、互動、保障、資料體系等等。

資料倉儲,是我們資料工程師的無形產品,不同於視覺化、互動型產品的評價體系:擁有比較明確的評價指標 mau、dau、gmv 等。資料倉儲一直沒有比較系統的評價體系,下面從概念 - 平台 - 規範的鏈路來介紹一下嚴選資料倉儲,最後跟大家交流一下資料倉儲的評價體系。

1資料倉儲基本架構

這裡概覽講一下嚴選資料倉儲的分層邏輯,下面是嚴選數倉的框架圖:

以業務資料的流向劃分,目前嚴選資料把模型分為三層,ods,dw 和 dm 層。其中 ods 是運算元據層,保留最原始的資料;dw 包含 dwd 和 dws 層,這兩層共同組成中間層;dm 是應用層,基於 dw 層做彙總加工,滿足各產品、分析師和業務方的需求。

2資料倉儲開發平台

嚴選資料倉儲分離線和實時兩部分。

離線部分由網易易數提供支援。網易易數(easydata)是網易數帆旗下的全鏈路資料生產力平台,提供全鏈路資料產品和服務,覆蓋資料分析及視覺化、資料研發、資料治理、資料服務化等,其前身為網易猛獁——現已按模組拆分,命名為 easy 系列產品,如離線開發 easydev。

在其他工種開發的眼裡,資料倉儲的入門門檻非常低,低到技術鄙視鏈的最末端:「噢……,他們就是寫 sql 的,他們整個團隊都是寫 sql 的……」,頓時天空飄過一萬匹神獸。曾經和未來都有很多人會來挑戰數倉工程師存在的意義:「我也能幹!」,但是實際情況是:*****!具體可參見嚴選資料倉儲的架構圖,這其中的每乙個 icon 背後都有一套工具、平台,甚至於乙個團隊來支撐運轉。

嚴選資料倉儲是一套方**,從規範定義、模型設計到資料服務,再到資料可管理、可追溯、可復用。嚴選資料倉儲遵循維度建模理論,參考了阿里巴巴的 onedata 建模理論,核心框架由三個規範組成:《嚴選 - 指標定義規範》 ,《嚴選 - 模型設計規範》和《嚴選 - 資料開發規範》,外層由輔助規範落地的若干工具、平台組成:倉頡 - 指標管理系統、燧人 - 指標地圖系統、uds- 資料質量中心、easydesign- 模型設計中心等。

指標定義規範,目的是統一開發 & 產品對指標的定義。通過對原子指標的命名規則、派生指標的命名規則和派生詞的定義來完成。

指標定義體系,是資料建設體系的基礎和核心,為了杜絕產品經理命名引起的歧義,以及後續帶來的使用和維護以及解釋成本。

模型設計規範,目的是統一資料開發對模型的命名定義。通過域 + 更新方式,域 + 維度 + 更新週期的方式來完成。

資料開發規範,目的是提高資料開發的 sql 開發能力。通過限制各級子查詢的縮排形式,子查詢的規範等來完成。

4資料倉儲評價體系

基本要求

資料安全和資料質量是資料倉儲的生命線!不可逾越、不可觸犯。

評價體系

下圖是近期整理的嚴選資料倉儲的 6 個評價角度

資料規範,最終目的是提高開發的整體水平。遵循嚴選資料規範:《嚴選 - 指標定義規範》、《嚴選 - 模型設計規範》和《嚴選 - 資料開發規範》,同時由工具和平台來保障規範的落地並監督評估規範落地的效果。

2. 資料安全

資料安全,這個命題怎麼強調都不為過,特別是近期資料安全問題頻發,51 信用卡,大大小小的放貸公司。因此作為資料從業者,遵循《網易商業行為準則》,不對外洩露業務資料,時刻做到資料指間過,安全心中留。

3. 資料質量

資料質量由資料本身的質量和資料建設質量兩部分組成:

5. 持續建設機制

6. 資料開發效率

較前 5 個角度對比,資料開發效率較難量化,可以從兩個方面來考量:開發規範的自動化程度和平台使用體驗。

5嚴選數倉評價實踐

依照前文提到的 6 個角度,嚴選分別有與之對應的工具來支援。

1. 資料規範

所有的資料規範,最終目的都是用來提高開發者的水平、提高**的質量。在開發水平參差不齊的情況下,需要有平台工具保障規範的落地。在過去的一年中,我們和網易杭州研究院一起規劃落地了網易易數 easydesign 模型設計平台:輔助《嚴選 - 指標定義規範》和《嚴選 - 模型定義規範》的落地。

每年有很多因資料導致的資損問題產生,我們從資料的上線流程、測試工具、測試環境等三個方面入手,讓過程合規,結果合法。

嚴選和網易易數共建的任務運維中心 easytaskops,實現智慧型基線預警,多基線精細化運維;目前我們 4 條基線完成率超過 90%。

2020 年上半年,嚴選和網易易數共建了資料運維中心,上線了以下內容:

4. 持續建設機制

迭代更新、持續建設,這是衡量乙個資料倉儲活力的乙個重要機制,我們通過指標一致性專案,梳理了數倉持續建設機制,資料緊跟業務成長,資料倉儲才會保持活力。

5. 資料開發質量

通過網易易數 easydesign 平台承接規範的落地,整個上半年資料開發通過平台新建 200+dw 層表,強有力的保障了規範的落地;我們的最終目標是通過各種方法策略來提高資料開發的素質,使用工具目的是幫助大家養成遵循規範的習慣。

6. 資料開發效率

持續建設機制、資料規範的落地,最直接的反應就是資料開發效率的提公升。嚴選全渠道資料基建專案中,交易域 +

數倉dw怎麼建 從0到1建設資料倉儲 數倉基礎篇

資料倉儲建設主題是系列篇,目的是帶大家從了解資料倉儲的基礎知識開始,循序漸進,學會資料倉儲的建設,本篇是數倉建設的第一篇,主要講講資料倉儲的基礎知識。01 什麼是資料倉儲 資料倉儲,英文名稱為datawarehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料...

數倉dw怎麼建 什麼是資料倉儲?如何構建資料倉儲?

1.什麼是資料倉儲?在wiki中對資料倉儲的解釋是 在計算中,資料倉儲 dw或dwh 也稱為企業資料倉儲 edw 是用於報告和資料分析的系統,被認為是商業智慧型的核心組成部分 dw是來自乙個或多個不同 的整合資料的 儲存庫。他們將當前和歷史資料儲存在乙個地方,用於為整個企業的工人建立分析報告。倉庫中...

數倉dw怎麼建 網易嚴選打造數倉規範和評價體系實踐

資料倉儲,是資料工程師的無形產品,不同於視覺化 互動型產品的評價體系,資料倉儲的評價自有它的獨特性。本次邀請了有多年資料領域工作經驗,專注資料架構 模型設計和規範執行落地的專家,從概念 平台 規範的鏈路來介紹 借助網易數帆旗下的全鏈路資料生產力平台 網易易數,嚴選是如何建立資料倉儲和評價體系的。作者...