資料倉儲的架構與設計

2021-09-10 23:33:03 字數 780 閱讀 8052

公司之前的資料都是直接傳到hdfs上進行操作,沒有乙個資料倉儲,趁著最近空出幾台伺服器,搭了個簡陋的資料倉儲,這裡記錄一下資料倉儲的一些知識。涉及的主要內容有:

什麼是資料倉儲?

資料倉儲的架構

資料倉儲多維資料模型的設計

官方定義

資料倉儲是乙個面向主題的、整合的、隨時間變化的、但資訊本身相對穩定的資料集合,用於對管理決策過程的支援。

這個定義的確官方,但是卻指出了資料倉儲的四個特點。

特點面向主題:資料倉儲都是基於某個明確主題,僅需要與該主題相關的資料,其他的無關細節資料將被排除掉

整合的:從不同的資料來源採集資料到同乙個資料來源,此過程會有一些etl操作

隨時間變化:關鍵資料隱式或顯式的基於時間變化

資訊本身相對穩定:資料裝入以後一般只進行查詢操作,沒有傳統資料庫的增刪改操作

個人理解

資料倉儲就是整合多個資料來源的歷史資料進行細粒度的、多維的分析,幫助高層管理者或者業務分析人員做出商業戰略決策或商業報表。

整合公司所有業務資料,建立統一的資料中心

產生業務報表,用於作出決策

為**運營提供運營上的資料支援

可以作為各個業務的資料來源,形成業務資料互相反饋的良性迴圈

分析使用者行為資料,通過資料探勘來降低投入成本,提高投入效果

開發資料產品,直接或間接地為公司盈利

原部落格》

資料倉儲 stg層 資料倉儲架構設計

資料倉儲經過多年的發展,倉庫架構設計也隨之多次調整,框架調整的過程中,寫入層上,lambda 沒有對資料寫入進行抽象,而是將雙寫流批系統的一致性問題反推給了寫入資料的上層應用 儲存上,以 hdfs 為代表的master dataset 不支援資料更新,持續更新的資料來源只能以定期拷貝全量 snaps...

資料倉儲分層架構設計

大資料資料倉儲是基於hive構建的資料倉儲,分布檔案系統為hdfs,資源管理為yarn,計算引擎主要包括mapreduce tez spark等,分層架構如下 1 資料 層 日誌或者關係型資料庫,並通過flume sqoop kettle等etl工具匯入到hdfs,並對映到hive的資料倉儲表中。2...

資料倉儲分層架構設計

這應該是資料倉儲同學在設計資料分層時首先要被挑戰的問題,類似的問題可能會有很多,比如說 為什麼要做資料倉儲?為什麼要做元資料管理?為什麼要做資料質量管理?當然,這裡我們只聊一下為什麼要做設計資料分層。作為一名資料的規劃者,我們肯定希望自己的資料能夠有秩序地流轉,資料的整個生命週期能夠清晰明確被設計者...