大資料專案之數倉專案(一)數倉搭建

2021-10-20 10:15:35 字數 566 閱讀 5729

名稱版本

hadoop

3.1.3

flume

1.9.0

kafka

2.11-2.4.1

zookeeper

3.5.7

mysql

5.1.27

sqoop

1.4.6

spark

3.0.0

hive

3.1.2

本專案採用星型維度建模

1、配置sparkonhive

--注意配置spark_home到環境變數

2、配置hive

--配置元資料到mysql

--配置相關中文注釋

--配置hiveonspark,在hive-site.xml檔案中配置:①spark的依賴位置,②hive執行的引擎

3、上傳純淨的spark的jar包到hdfs上

4、配置hadoop上容量排程器(capacity-schdualer.xml)

5、配置hive提交任務到哪個佇列上(hive-site.xml)

大資料專案之電商數倉(數倉建模理論篇)(重點)

ods 原始資料層 不做處理,存放原始資料 dwd 明細資料層 進行簡單資料清洗,降維 dws 服務資料層 按天進行輕度彙總 做寬表 dwt 資料主題層 按主題進行彙總 ads 資料應用層 為報表提供資料 1 保持資料原貌不做任何修改,起到備份資料的作用。2 資料採用lzo壓縮,並建立索引減少磁碟儲...

數倉專案筆記 20200817

1 資料倉儲 作為資料的管理和運算中心 資料存檔 各種統計 運算任務的核心平台 2 使用者畫像系統 含義 深入分析使用者後給使用者打上各種規範標籤 年齡,性別,地域特徵,偏好特徵,價值指數,行為習慣,消費習慣 作用 對使用者進行精準營銷,用於支撐精細化營運 比如,針對不同的人 放不同的優惠券 比如,...

大資料數倉之報表開發

在大資料開發中,主要的資料分析目的可以分為2類。一類是基於歷史資料 就算是實時數倉,接收到資料的時候,其實也已經是歷史資料了 做資料規律或者結果提取 一類是基於歷史資料,訓練模型,做未來資料 或者分類等。如果是前者,基於已有資料做資料規律和資料結果提取,這時候就可以稱之為報表開發。參考神策系統,報表...