數倉dw怎麼建 網易嚴選打造數倉規範和評價體系實踐

2021-10-14 00:26:17 字數 3703 閱讀 2508

資料倉儲,是資料工程師的無形產品,不同於視覺化、互動型產品的評價體系,資料倉儲的評價自有它的獨特性。

本次邀請了有多年資料領域工作經驗,專注資料架構、模型設計和規範執行落地的專家,從概念-平台-規範的鏈路來介紹:借助網易數帆旗下的全鏈路資料生產力平台——網易易數,嚴選是如何建立資料倉儲和評價體系的

作者 | 乙峰,嚴選數倉交易域負責人

資料為王的時代,資料量從最初的幾十g,慢慢沉澱到幾十t,甚至幾十pb的量。資料工程師,也從最初的etl工程師慢慢成長為資料全棧工程師:採集、同步、模型、離線、實時、規範、平台、工具、產品、互動、保障、資料體系等等。

資料倉儲,是我們資料工程師的無形產品,不同於視覺化、互動型產品的評價體系:擁有比較明確的評價指標mau、dau、gmv等。資料倉儲一直沒有比較系統的評價體系,下面從概念-平台-規範的鏈路來介紹一下嚴選資料倉儲,最後跟大家交流一下資料倉儲的評價體系。

這裡概覽講一下嚴選資料倉儲的分層邏輯,下面是嚴選數倉的框架圖:

資料倉儲分層沒有絕對的規範,適合的就是最好的,特別是企業已經有乙個初版的數倉的時候,需要做好改造成本和可理解性之間的平衡。

以業務資料的流向劃分,目前嚴選資料把模型分為三層,ods,dw和dm層。其中ods是運算元據層,保留最原始的資料;dw包含dwd和dws層,這兩層共同組成中間層;dm是應用層,基於dw層做彙總加工,滿足各產品、分析師和業務方的需求。

嚴選資料倉儲分離線實時兩部分。

離線部分由網易易數提供支援。網易易數(easydata)是網易數帆旗下的全鏈路資料生產力平台,提供全鏈路資料產品和服務,覆蓋資料分析及視覺化、資料研發、資料治理、資料服務化等,其前身為網易猛獁——現已按模組拆分,命名為easy系列產品,如離線開發easydev。

實時部分由atom平台提供支援,atom是嚴選產技自研的一款實時資料管理和開發平台。

在其他工種開發的眼裡,資料倉儲的入門門檻非常低,低到技術鄙視鏈的最末端:「噢……,他們就是寫sql的,他們整個團隊都是寫sql的……」,頓時天空飄過一萬匹神獸。曾經和未來都有很多人會來挑戰數倉工程師存在的意義:「我也能幹!」,但是實際情況是:*****!具體可參見嚴選資料倉儲的架構圖,這其中的每乙個icon背後都有一套工具、平台,甚至於乙個團隊來支撐運轉。

嚴選資料倉儲是一套方**,從規範定義、模型設計到資料服務,再到資料可管理、可追溯、可復用。嚴選資料倉儲遵循維度建模理論,參考了阿里巴巴的onedata建模理論,核心框架由三個規範組成:《嚴選-指標定義規範》 ,《嚴選-模型設計規範》和《嚴選-資料開發規範》,外層由輔助規範落地的若干工具、平台組成:倉頡-指標管理系統、燧人-指標地圖系統、uds-資料質量中心、easydesign-模型設計中心等。

指標定義規範,目的是統一開發&產品對指標的定義。通過對原子指標的命名規則、派生指標的命名規則和派生詞的定義來完成。

指標定義體系,是資料建設體系的基礎和核心,為了杜絕產品經理命名引起的歧義,以及後續帶來的使用和維護以及解釋成本。

模型設計規範,目的是統一資料開發對模型的命名定義。通過域+更新方式,域+維度+更新週期的方式來完成。

資料開發規範,目的是提高資料開發的sql開發能力。通過限制各級子查詢的縮排形式,子查詢的規範等來完成。

資料安全和資料質量是資料倉儲的生命線!不可逾越、不可觸犯。

下圖是近期整理的嚴選資料倉儲的6個評價角度

資料規範,最終目的是提高開發的整體水平。遵循嚴選資料規範:《嚴選-指標定義規範》、《嚴選-模型設計規範》和《嚴選-資料開發規範》,同時由工具和平台來保障規範的落地並監督評估規範落地的效果。

資料安全,這個命題怎麼強調都不為過,特別是近期資料安全問題頻發,51信用卡,大大小小的放貸公司。因此作為資料從業者,遵循《網易商業行為準則》,不對外洩露業務資料,時刻做到資料指間過,安全心中留。

資料質量由資料本身的質量資料建設質量兩部分組成:

較前5個角度對比,資料開發效率較難量化,可以從兩個方面來考量:開發規範的自動化程度和平台使用體驗。

依照前文提到的6個角度,嚴選分別有與之對應的工具來支援。

所有的資料規範,最終目的都是用來提高開發者的水平、提高**的質量。在開發水平參差不齊的情況下,需要有平台工具保障規範的落地。在過去的一年中,我們和網易杭州研究院一起規劃落地了網易易數easydesign模型設計平台:輔助《嚴選-指標定義規範》和《嚴選-模型定義規範》的落地。

下圖是依託網易易數easydesign實現的模型設計線上化產品介面。

衡量數倉建設水平可以通過以下3個指標:總ods表被跨層依賴率被跨層依賴的ods表數量有下游ods表被跨層依賴率三個指標來完成。

每年有很多因資料導致的資損問題產生,我們從資料的上線流程、測試工具、測試環境等三個方面入手,讓過程合規,結果合法。

嚴選和網易易數共建的任務運維中心easytaskops,實現智慧型基線預警,多基線精細化運維;目前我們4條基線完成率超過90%。

2023年上半年,嚴選和網易易數共建了資料運維中心,上線了以下內容:

迭代更新、持續建設,這是衡量乙個資料倉儲活力的乙個重要機制,我們通過指標一致性專案,梳理了數倉持續建設機制,資料緊跟業務成長,資料倉儲才會保持活力。

通過和網易易數一起推動easycost公升級,通過梳理儲存相關規則、規範相關規則、計算相關規則、質量相關規則,上半年一共下線3.4w張表,節約了1.2pb的儲存。

通過網易易數easydesign平台承接規範的落地,整個上半年資料開發通過平台新建200+dw層表,強有力的保障了規範的落地;我們的最終目標是通過各種方法策略來提高資料開發的素質,使用工具目的是幫助大家養成遵循規範的習慣。

持續建設機制、資料規範的落地,最直接的反應就是資料開發效率的提公升。嚴選全渠道資料基建專案中,交易域+商品域的離線+實時資料校驗一次性通過,大大降低了資料開發的迭代修復成本。

作者簡介

乙峰:多年資料領域工作經驗,專注資料架構、模型設計和規範執行落地等。嚴選數倉交易域負責人,負責交易域模型設計落地和對外服務。

本文由嚴選技術團隊授權發布

延伸閱讀:

數倉dw怎麼建 網易嚴選如何打造數倉規範和評價體系

資料為王的時代,資料量從最初的幾十 g,慢慢沉澱到幾十 t,甚至幾十 pb 的量。資料工程師,也從最初的 etl 工程師慢慢成長為資料全棧工程師 採集 同步 模型 離線 實時 規範 平台 工具 產品 互動 保障 資料體系等等。資料倉儲,是我們資料工程師的無形產品,不同於視覺化 互動型產品的評價體系 ...

數倉dw怎麼建 從0到1建設資料倉儲 數倉基礎篇

資料倉儲建設主題是系列篇,目的是帶大家從了解資料倉儲的基礎知識開始,循序漸進,學會資料倉儲的建設,本篇是數倉建設的第一篇,主要講講資料倉儲的基礎知識。01 什麼是資料倉儲 資料倉儲,英文名稱為datawarehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料...

數倉dw怎麼建 什麼是資料倉儲?如何構建資料倉儲?

1.什麼是資料倉儲?在wiki中對資料倉儲的解釋是 在計算中,資料倉儲 dw或dwh 也稱為企業資料倉儲 edw 是用於報告和資料分析的系統,被認為是商業智慧型的核心組成部分 dw是來自乙個或多個不同 的整合資料的 儲存庫。他們將當前和歷史資料儲存在乙個地方,用於為整個企業的工人建立分析報告。倉庫中...