數倉相關知識集合

2021-10-19 18:13:27 字數 594 閱讀 4482

數倉建模

說到數倉建模,就得提下經典的2套理論:

數倉的建模或者分層,其實都是為了更好的去組織、管理、維護資料,實際開發時會整合2種方式去使用,當然,還有些其他的,像data vault模型、anchor模型,暫時還沒有應用過,就不說了。

維度建模,一般都會提到星型模型、雪花模型,星型模型做olap分析很方便。

數倉分層

簡單點兒,直接ods+dm就可以了,將所有資料同步過來,然後直接開發些應用層的報表,這是最簡單的了;當dm層的內容多了以後,想要重用,就會再拆分乙個公共層出來,變成3層架構,最近看了本阿里的書,《大資料之路》,裡面有很多數倉相關的內容,很不錯,參考後,目前使用的分層模式如下:

按照這種分層方式,我們的開發重心就在dwd層,就是明細資料層,這裡主要是一些寬表,儲存的還是明細資料;到了dws層,我們就會針對不同的維度,對資料進行聚合了,按道理說,dws層算是集市層,這裡一般按照主題進行劃分,屬於維度建模的範疇;ads就是偏應用層,各種報表的輸出了。

基於這種分層方式,感覺用起來還是很方便的,嗯,先到這裡。

數倉相關工具

資料同步工具 離線同步 sqoop datax 實時同步 cannal flink cdc 許可權管理 kerberos,cdh cloudmanager sentry hdp ambari ranger 其中後兩者可以做到目錄級別使用者級別許可權管理 資料質量監控工具 apache griffin...

數倉相關思考3

表的輸入格式和表中儲存資料的格式相關,輸入格式的作用是為select語言提供乙個輸入格式,以便於讀取表中的資料!ods層表中儲存的資料格式為 textfile 但是使用了lzo壓縮,為了可以正常讀取和切片資料檔案,必須設定為 deprecatedlzotextinputformat!能否切片,主要取...

數倉知識08 數倉設計步驟和使用

提供相關資訊進行分析和效能估計,提高行業競爭優勢 提高企業生產力。可以快速收集準確描述組織機構的資訊 有利於客戶聯絡管理,因為他跨越所有商務 所有部門和市場 可以降低成本。通過可靠的方式進行長期趨勢跟蹤,發現異常。建立數倉前需要分析商務需求,搭建商務分析框架。b.資料來源檢視 被操作的資料庫庫細通收...