大型資料倉儲 整體架構的設計和理解

2021-08-21 01:26:11 字數 1059 閱讀 9995

1.基於haoop實現的資料倉儲需要用到的元件

資料採集層:flume,kafka,sqoop,logstash,datax

資料儲存層::msyql,hdfs,hbase,redis,mongodb

資料計算:mr,tez,spark,flink,storm

2.系統資料流程設計

業務資料--> mysql -->sqoop

日誌資料--> 後台採集--> log file -->flume --> kafka -->存到hdfs , 或者直接到分析引擎flink或者spark --> hive  --> mysql --> 後台服務--> 前端視覺化

3.伺服器的選擇規劃(常規)

服務名稱

子服務伺服器

hadoop102

伺服器hadoop103

伺服器hadoop104

hdfs

namenode √

datanode√√

√secondarynamenode

√yarn

nodemanager√√

√resourcemanager √

zookeeper

zookeeper server√√

√flume(採集日誌)

flume√√

kafka

kafka√√

√flume(消費kafka)

flume

√hive

hive

√mysql

mysql

√sqoop

sqoop

√azkaban

azkabanwebserver

√azkabanexecutorserver

√服務數總計138

4.總體的數倉分層會有4層

ods : 原始資料層

dwd: etl過濾原始資料得到資料

dws:用於製作一些多維度的寬表

ads:更精細化的資料表

資料倉儲 stg層 資料倉儲架構設計

資料倉儲經過多年的發展,倉庫架構設計也隨之多次調整,框架調整的過程中,寫入層上,lambda 沒有對資料寫入進行抽象,而是將雙寫流批系統的一致性問題反推給了寫入資料的上層應用 儲存上,以 hdfs 為代表的master dataset 不支援資料更新,持續更新的資料來源只能以定期拷貝全量 snaps...

資料倉儲的架構與設計

公司之前的資料都是直接傳到hdfs上進行操作,沒有乙個資料倉儲,趁著最近空出幾台伺服器,搭了個簡陋的資料倉儲,這裡記錄一下資料倉儲的一些知識。涉及的主要內容有 什麼是資料倉儲?資料倉儲的架構 資料倉儲多維資料模型的設計 官方定義 資料倉儲是乙個面向主題的 整合的 隨時間變化的 但資訊本身相對穩定的資...

資料倉儲分層架構設計

大資料資料倉儲是基於hive構建的資料倉儲,分布檔案系統為hdfs,資源管理為yarn,計算引擎主要包括mapreduce tez spark等,分層架構如下 1 資料 層 日誌或者關係型資料庫,並通過flume sqoop kettle等etl工具匯入到hdfs,並對映到hive的資料倉儲表中。2...