資料倉儲分層

2021-09-23 05:56:08 字數 879 閱讀 1984

下面的內容是基於參考中的文件進行的二次讀書筆記。

傳統行業的資料倉儲工程師, 開始嘗試架構工程領域比較流行的er模型+維度模型方式,構建出乙個四層的模型架構

阿里在構建er時碰到了較大的挑戰,主要是業務快速發展,人員快速變化、業務知識功底的不夠全面,導致er模型產出困難。

阿里得出了乙個結論:在不太成熟、快速變化的業務層面,構建er模型的風險很大,不太適合去構建er模型,說的有點道理,比如運營商業務相對比較穩定,國際上也有一些最佳實踐,從概念-領域-邏輯-物理的全域性把控上還能應對,但面對變化,的確有其限制。

阿里業務和資料飛速發展,迎來了hadoop為代表的分部署儲存計算的快速發展,同時阿里自主研發的分布式計算平台maxcompute也在進行,因此開始建設自己的第三代模型架構,其選擇了以kimball的維度建模為核心理念的模型方**,同時進行了一定的公升級和擴充套件,構建了阿里巴巴集團的公共層模型資料架構體系。

把作業系統資料幾乎無處理的存放到資料倉儲系統中。

又細分為dwd和dws,分別是明細資料層和彙總資料層,採用維度模型方法作為理論基礎,更多採用一些維度退化方法,將維度退化至事實表中,減少事實表和維表的關聯,提高明細資料表的易用性,同時在彙總資料層,加強指標的維度退化,採取更多的寬表化手段構建公共指標資料層,提公升公共指標的復用性。

dwd(明細資料層)

dws(彙總資料層)

存放資料產品個性化的統計指標資料,根據cdm與ods加工生成。

idm層,個體挖掘指標中間層,面向個體挖掘場景,用於儲存通用性強的結果資料

fdm層,用於儲存在模型訓練常用的特徵指標。

hbase資料是按照rowkey來進行hash的,因此關鍵在於rowkey的設計。

以md5的前四位作為rowkey的第一部分,可以把資料雜湊,讓伺服器整體負載均衡,避免熱點的問題。

資料倉儲分層

資料倉儲更多代表的是一種對資料的管理和使用的方式,它是一整套包括了etl 排程 建模在內的完整的理論體系。現在所謂的大資料更多的是一種資料量級的增大和工具的上的更新。兩者並無衝突,相反,而是一種更好的結合。資料倉儲在構建過程中通常都需要進行分層處理。業務不同,分層的技術處理手段也不同。分層的主要原因...

資料倉儲分層

資料倉儲分層的主要原因是在管理資料的時候,能對資料有乙個更加清晰的掌控,詳細來講,主要有下面幾個原因 為什麼最低要分三層呢?在實際的生產環境中,資料倉儲的資料一般會有多個 資料可能比較亂,有很多的髒資料,資料的單位可能會不一樣等原因,我們要對資料進行分析或者對資料進行聚合等操作顯然不那麼方便,這時候...

資料倉儲和資料倉儲分層

資料倉儲 data warehouse 可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。1 問題簡單化,將乙個複雜的問題分...