數倉相關工具

2022-06-27 04:03:13 字數 319 閱讀 2731

資料同步工具:離線同步 sqoop /datax  實時同步 cannal/flink cdc

許可權管理(kerberos,cdh cloudmanager=> sentry ,hdp ambari=>ranger;其中後兩者可以做到目錄級別使用者級別許可權管理)

資料質量監控工具-apache griffin

元資料管理apache atlas(血緣系統)

資料排程工具apache dolphinscheduler 、apache airflow

報表視覺化工具finereport 、tableau、powerbi

visio流程圖工具

數倉相關思考3

表的輸入格式和表中儲存資料的格式相關,輸入格式的作用是為select語言提供乙個輸入格式,以便於讀取表中的資料!ods層表中儲存的資料格式為 textfile 但是使用了lzo壓縮,為了可以正常讀取和切片資料檔案,必須設定為 deprecatedlzotextinputformat!能否切片,主要取...

數倉相關知識集合

數倉建模 說到數倉建模,就得提下經典的2套理論 數倉的建模或者分層,其實都是為了更好的去組織 管理 維護資料,實際開發時會整合2種方式去使用,當然,還有些其他的,像data vault模型 anchor模型,暫時還沒有應用過,就不說了。維度建模,一般都會提到星型模型 雪花模型,星型模型做olap分析...

數倉工具 Hive初識 1

那麼,到底什麼是hive,我們先看看hive官網wiki是如何介紹hive的 apache hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張表,並且提供了通過sql 對儲存在分布式中的大型資料集的查詢和管理,主要提供以下功能 它提供了一系列的通過sql 訪問資料的工具,...