數倉過程建模 數倉入門基礎 1 漫談數倉

2021-10-16 10:45:32 字數 2184 閱讀 7006

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。 為需要業務智慧型的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。資料倉儲的特徵在於面向主題、整合性、穩定性和時變性。

我所經歷的大資料平台發展史(一):非網際網路時代 • 上篇

我所經歷的大資料平台發展史(二):非網際網路時代 • 下篇

我所經歷的大資料平台發展史(三):網際網路時代• 上篇

我所經歷的大資料平台發展史(四):網際網路時代• 下篇

網際網路數倉的發展比較有代表性的是阿里,以下是《阿里大資料之路》中的資料體系架構圖。

阿里資料體系架構圖

從上面的阿里體系架構圖中可以看出,數倉建模的主要工作在資料計算層,經過計算和整合後的資料才有價值,這個是數倉工作中的主要部分。對資料進行有序和有結構地分類組織和儲存,避免重複建設和資料不一致性,保證資料的規範性,讓資料發揮它的價值。

在資料倉儲技術出現前,有很多資料分析的先驅者已經發現,簡單的「直接訪問」方式很難良好工作,這樣做的失敗案例數不勝數。下面列舉一些直接訪問業務系統無法工作的原因:

1.某些業務資料由於安全或其他因素不能直接訪問。

2.業務系統的版本變更很頻繁,每次變更都需要重寫分析系統並重新測試。

3.很難建立和維護彙總資料**於多個業務系統版本的報表。

4.業務系統的列名通常是硬編碼,有時僅僅是無意義的字串,這讓編寫分析系統更加困難。

5.業務系統的資料格式,如日期、數字的格式不統一。

6.業務系統的表結構為事務處理效能而優化,有時並不適合查詢與分析。

7.沒有適當的方式將有價值的資料合併進特定應用的資料庫。

8.沒有適當的位置儲存元資料。

9.使用者需要看到的顯示資料字段,有時在資料庫中並不存在。

10.通常事務處理的優先順序比分析系統高,所以如果分析系統和事務處理執行在同一硬體之上,分析系統往往效能很差。

11.有誤用業務資料的風險。

12.極有可能影響業務系統的效能。

數倉的存在性:

1.相比操作型系統儲存資料,dw使用資料,操作型系統反映最新資料狀態,dw需收集海量歷史資料進行分析;

2.dw可以讓業務人員方便的獲得資料,有很強的資料服務能力;

3.dw統一口徑,以一致的形式展現資訊,避免出現指標正確性的爭論;

4.dw有良好的擴充套件性,業務發生變化,需要與歷史資料進行完美融合;

5.dw是提高決策制定能力的權威和可信的基礎,資料質量是生命線,有質量的資料才有說服力

數倉的特性:

1.面向主題的,按照一定的主題進行組織,主題是指使用者使用資料倉儲進行決策時所關心的重點方面,後面會重點舉例說明。

2.資料倉儲是整合的,資料倉儲的資料有來自於分散的操作型資料,將所需資料從原來的資料中抽取出來,進行加工和整合之後,進入資料倉儲。

3.資料倉儲是不可更新的,資料倉儲主要是為決策分析供資料,所涉及的操作主要是資料的查詢。

4.資料倉儲是隨時間而變化的,傳統的關係型資料庫系統比較適合處理格式化的資料,能夠較好的滿足商業商務處理的需求。穩定的資料以唯讀格式儲存,且不隨時間改變。

5.彙總的。操作性資料對映成決策可用的格式。

6.大容量。時間序列資料集合通常都非常大。

7.非規範化的。dw資料可以是而且經常是冗餘的。

8.元資料。將描述資料的資料儲存起來。

9.資料來源。資料來自內部的和外部的非整合作業系統。

數倉為什麼要分層建模???

隨著dt時代的到來,資料爆發性增長,如何將資料進行有序、結構化的分類組織和儲存是面臨的很大的乙個挑戰。多而雜的資料,會讓取數效率低下、口徑不

一、質量無保障等問題,所以數倉的建模主要解決以下幾個問題:

1.效能:良好的資料模型能幫助我們快速查詢所需要的資料,減少資料的i/o吞吐。

2.成本:良好的資料模型能極大地減少不必要的資料冗餘,也能實現計算結果的復用,極大地降低大資料系統中的儲存和計算成本。

3.效率:良好的資料模型能極大的改善使用者使用資料的體驗,提高使用資料的效率。

4.質量:良好的資料模型能改善資料統計口徑的不一致性,減少資料計算錯誤的可能性。

注:這四個方面在真正構思模型時還需考慮權衡,可能不能全都達到極致,需利弊對比,採用最合理的方案。

資料倉儲入門基礎 1 漫談數倉

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。資料倉儲的特徵在於面向主...

數倉建模綜述

隨著大型關聯式資料庫商業軟體的興起,現代企業資訊系統幾乎都在使用關聯式資料庫來儲存 加工和處理資料。資料倉儲系統也不例外,大量的資料倉儲系統依託強大的關聯式資料庫能力儲存和處理資料,其採用的資料模型方法也是基於關聯式資料庫理論的。儘管 nosql也有 一定的發展,但是企業仍在大規模使用sql進行資料...

數倉建模的edw 數倉結構幾層,作用

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。資料倉儲,並不是資料的最...