資料倉儲分層

下面的內容是基於參考中的文件進行的二次讀書筆記。

傳統行業的資料倉儲工程師, 開始嘗試架構工程領域比較流行的er模型+維度模型方式，構建出乙個四層的模型架構

阿里在構建er時碰到了較大的挑戰，主要是業務快速發展，人員快速變化、業務知識功底的不夠全面，導致er模型產出困難。

阿里得出了乙個結論：在不太成熟、快速變化的業務層面，構建er模型的風險很大，不太適合去構建er模型，說的有點道理，比如運營商業務相對比較穩定，國際上也有一些最佳實踐，從概念-領域-邏輯-物理的全域性把控上還能應對，但面對變化，的確有其限制。

阿里業務和資料飛速發展，迎來了hadoop為代表的分部署儲存計算的快速發展，同時阿里自主研發的分布式計算平台maxcompute也在進行，因此開始建設自己的第三代模型架構，其選擇了以kimball的維度建模為核心理念的模型方**，同時進行了一定的公升級和擴充套件，構建了阿里巴巴集團的公共層模型資料架構體系。

把作業系統資料幾乎無處理的存放到資料倉儲系統中。

又細分為dwd和dws，分別是明細資料層和彙總資料層，採用維度模型方法作為理論基礎，更多採用一些維度退化方法，將維度退化至事實表中，減少事實表和維表的關聯，提高明細資料表的易用性，同時在彙總資料層，加強指標的維度退化，採取更多的寬表化手段構建公共指標資料層，提公升公共指標的復用性。

dwd(明細資料層)

dws(彙總資料層)

存放資料產品個性化的統計指標資料，根據cdm與ods加工生成。

idm層，個體挖掘指標中間層，面向個體挖掘場景，用於儲存通用性強的結果資料

fdm層，用於儲存在模型訓練常用的特徵指標。

hbase資料是按照rowkey來進行hash的，因此關鍵在於rowkey的設計。

以md5的前四位作為rowkey的第一部分，可以把資料雜湊，讓伺服器整體負載均衡，避免熱點的問題。

資料倉儲分層

資料倉儲分層

資料倉儲分層

資料倉儲和資料倉儲分層

相關推薦