如何建設資料倉儲?

2021-10-09 22:13:20 字數 3375 閱讀 3493

資料倉儲的概念由來已久,相信大家早已不再陌生,其主要目的是為管理決策提供資料支撐和依據。於是數倉工具顯得尤為重要。

資料倉儲,顧名思義,就是儲存資料的倉庫。

現實中的倉庫會有不同的分割槽和歸類,分割槽下有多個貨架,貨架上堆放著各種各樣的商品。對於資料倉儲來說,分割槽歸類就類似於資料倉儲的基礎架構,資料倉儲的資料儲存結構(如表)就是倉庫的貨架,而商品則是對應資料倉儲實際儲存的各種資料。無論是什麼樣的倉庫,無論倉庫大小,其目的都是為了實現物品的集中管理、有序訪問,資料倉儲也是一樣,它管理儲存的是資料以及資料結構。

其實業界對於資料倉儲早已有了廣泛認可的定義,即:資料倉儲是乙個面向主題的(subject oriented)、整合的(integrated)、相對穩定的(non-volatile)、反映歷史變化(time variant)的資料集合,用於支援管理決策。

資料倉儲本質上是一種特殊的資料組織形式:

面向主題,即資料倉儲中表的設計是按照乙個個主題進行組織的而非按照業務流程設計;

整合性,是指將企業中各大業務系統進行資料集中、整合、加工從而形成全域性統一的資料檢視;

相對穩定,則是指資料倉儲中的資料不會做頻繁的增刪改操作,相對於業務系統中頻繁的事務處理,其資料變化相對穩定;

反應歷史變化,表明資料倉儲通常會儲存資料的歷史備份,因此就可以從中獲取資料歷史變化情況。

資料倉儲的這些特性滿足了分析型應用的需求,可以更好的幫助企業制定管理決策。

理解完資料倉儲基本概念和特性,接著我們來學習下資料倉儲的核心概念。

概念一 —— 維度

維度是乙個與業務相關的觀察角度,比如我們從地區角度觀察哪個地區的銷售額最多,那麼地區就是乙個維度。在資料倉儲中我們將這些維度資訊儲存成一張張資料庫表,我們稱之為維表。

維表主要分為:單級維、層級維、變化維。

維表通常由維主鍵編碼和維度名稱以及其他屬性字段組成。

2.概念二 —— 度量。

度量是反映企業運**況或狀態的一些數值指標,是業務量化的表示,可以用來監測業務的成效,比如銷售額、利潤來反應企業業績。

3.概念三 —— 事實表

事實表也被稱為主題表,它是由若干維度和度量組合而成,表達期望分析的主題。事實表中的多個維度的組合決定了事實表的資料詳細程度,這種詳細程度我們稱之為顆粒度。以顆粒度來劃分主題表的話,通常會有三種事實表:事務粒度事實表、週期快照粒度事實表、累積快照粒度事實表。

以乙個例子來說明,比如某個商品的一筆銷售記錄,我們用表記錄下來,這條記錄已經是最小的資料記錄單元,不可再分,因此它是乙個事務粒度的事實表,我們將這張表按自然月進行彙總得到該商品月度銷售情況,那麼這張表就是按一定週期記錄事實,我們稱之為週期快照粒度事實表。最後一種累積快照事實表,則記錄覆蓋整個生命週期過程中的不同階段的關鍵資訊,如訂單累積快照事實表,包括下單時間、付款時間、發貨時間、收貨時間等,通過多個時間字段記錄訂單從產生到業務完結的關鍵節點,在訂單的不同階段,這些時間字段逐步被填充。

在資料倉儲中,維度表和事實表的設計需要遵循一些重要原則,即一致性維度和一致性事實。

所謂一致性維度是指在同乙個集市內,兩個維度如果有關係,要麼就是完全一樣的,要麼就是乙個維度在數學意義上是另乙個維度的子集,例如,如果建立月維度話,月維度的各種描述必須與日期維度中的完全一致,最常用的做法就是在日期維度上建立檢視生成月維度。這樣月維度就可以是日期維度的子集,在後續鑽取等操作時可以保持一致;

所謂一致性事實,即是指表達相同業務含義的度量(或稱為指標)需要在描述定義和計算口徑、度量單位等保持一致,杜絕系統間同詞不同義或同義不同詞的問題。

資料倉儲有分層結構,每個分層結構都有各自的作用,大抵上分層結構分為:貼源層、整合層、集市層、彙總層。

資料倉儲分層架構從整體上來看,是將資料從分散到集中、從細粒度到高度彙總、從業務模型到分析型模型轉變的過程,從而更好的為分析型系統提供後台資料支撐。

資料倉儲誕生已久,在此過程中,湧現了諸多優秀的數倉建設工具,有國內外的,有開源的有商業的,如常用建模工具有erwin、powerdesigner等,還有一些國內置模etl工具,比如億信華辰的資料工廠系統esdatafactory。

資料工廠登入介面

esdatafactory集建模和etl於一體,內建經典的數倉分層理念和豐富的資料處理元件,同時結合十多年的數倉實施經驗,開發了批量建模、etl快捷建模等多種建模方式,有效提公升開發效率,更貼近實際數倉建設場景,可以快速幫助企業搭建數倉模型,完成 etl敏捷開發。

資料工廠到底有什麼用呢?話不多說,我們來看看資料工廠在專案上的成功應用。

案例一:某銀行數倉建設

為全面滿足某銀行各項監管報送、分析決策類需求,基於資料倉儲和商務智慧型bi技術,構建資料倉儲和資料分析應用平台,為決策者提供資料支援服務。平台整合各業務資料,構建了經邏輯整合的、面向業務主題的綜合應用資料倉儲,能夠支援高擴充套件性的輔助決策支援體系。通過資料補錄手段對業務資料和報表資料分別進行人工補錄,全面解決資料缺失、資料質量不高的問題。

使用資料工廠esdatafactory,通過建模功能構建統一的符合企業資料標準的業務主題模型,通過etl任務實現多源資料的整合、彙總,並根據業務規則建立資料質量檢查體系,解決資料不準確、不一致等質量問題。該專案主要架構如下圖:

案例二:國家電網一體化資料應用平台

為建設「三型兩網」,要實現電力流、資料流橫向融合和縱向貫通,優先重點做好「大規劃」業務技術支撐,而「大規劃」體系的技術支撐單位,存在業務涉及面廣,支撐部門多,工作中存在資訊口徑多、重複錄入,資訊交換困難,孤島現象嚴重;業務資料協同、智慧型分析、輔助決策等深層次分析挖掘和綜合利用不夠;各項業務系統缺乏流程監控,精益化管理水平有待進一步提高等問題。

為提高資訊化和精益化管理水平,建立統

一、健全、高效的技術服務體系,亟需在「大規劃」體系的技術支撐單位建設貫通各層級、整合各業務、資訊高度共享的電網大資料綜合管理平台。

電網規劃大資料一體化平台拓展覆蓋電網規劃等全部規劃領域,貫穿各層級,打通各環節,建設涵蓋規劃資訊庫、輸電網規劃、配電網規劃、電網發展診斷、輸電網成果管理和配電網成果管理六大塊業務需求的全業務資料中心,全面支撐電網規劃設計業務。

平台建設借助i@report快速搭建資料採集平台,並通過億信esdatafactory完成各個業務系統資料的整合清洗,再結合億信bi實現大規劃、大建設成果的集中展示,快速完成資料採集、資料處理、資料應用的一整套流程。

資料倉儲作為分析型系統的理論模型被逐漸應用完善,發展到今天,資料倉儲已經成為企業資訊化建設必不可少的重要支撐。億信華辰的數倉工具-資料工廠esdatafactory已成功應用於多個客戶,經過無數專案的錘煉,成功證明其價值。

如何建設資料倉儲?

資料倉儲作為企業提供決策支援而構建的整合化資料環境,本身並不產生或者消費資料,基本架構包含的是資料流入流出的過程,首先放上一張資料倉儲的架構圖。資料倉儲作為中間整合化資料管理的乙個平台,底層有多種資料 流入資料倉儲之後對上層應用開放。1 分析業務需求,確定資料倉儲主題 資料模型的建立依賴資料倉儲主題...

資料倉儲建設規範

版本編號 v1.0 發布日期 2017 07 19 作 者 發布範圍 產研大資料團隊 目 錄1 資料架構概述 2 1.1 原始資料層 ods 3 1.2 資料倉儲層 dw 3 1.3 資料集市層 dm 4 2 資料庫命名規範 4 3 表命名規範 5 3.1 整體原則 5 3.2 原始資料層表命名規範...

資料倉儲建設 資料建模

首先我們先檢視三個問題 什麼是資料模型 為什麼需要資料模型 如何建立資料模型 一 什麼是資料模型 資料模型是抽象描述現實世界的一種工具和方法,是通過抽象的實體及實體之間聯絡的形式,來表示現實世界中事務的相互關係的一種對映。在這裡,資料模型表現的抽象的實體和實體之間的關係,通過對實體和實體之間關係的定...