資料倉儲Hive簡單了解(一)

2021-10-05 01:51:50 字數 1328 閱讀 8835

資料倉儲(dw或dwh)是乙個面向主題的、整合的、隨時間變化的,但資訊本身相對穩定的資料集合。

資料倉儲三個特點:(選擇題)

資料庫和資料倉儲的主要區別:

資料處理兩大型別:

資料倉儲結構:

資料儲存及管理:是整個資料倉儲的核心,決定了對外部資料的表現形式,針對系統現有的資料,進行抽取、清理並有效整合,再按照主題進行組織。

olap伺服器:對需要分析的資料按多維資料模型進行重組,以支援使用者隨時進行多角度、多層次的分析,並發現資料規律和趨勢。

前端工具:主要包含各種資料分析工具、報表工具、查詢工具、資料探勘工具以及各種基於資料倉儲或資料集市開發的應用。

資料倉儲的資料模型:

雪花模型:是當乙個或多個維表沒有直接連到事實表上,而是通過其他維錶連到事實表上。

hive和mysql區別:

對比項hive

mysql

查詢語言

hive ql

sql資料儲存位置

hdfs

塊裝置、本地檔案系統

資料格式

使用者定義

系統決定

資料更新

不支援支援

事務不支援

支援執行延遲高低

可擴充套件性高低

資料規模大小

hive系統框架組成:

hive執行機制:

hive工作原理

1:ui向driver傳送查詢操作;

2:driver借助編譯器解析查詢,期望獲取查詢計畫;

3:編譯器將元資料請求傳送給metastore;

4:metastore將元資料以響應的方式傳送給編譯器;

5:編譯器檢查需求,並將計畫重新傳送給driver;

6:driver(驅動引擎)將執行計畫傳送給執行引擎,執行任務;

7:執行引擎從datanode中獲取結果,並將結果傳送給ui和driver;

hive資料模型

hive中所有資料都儲存在hdfs中,它包含四種資料型別(粒度從大到小進行劃分):

資料倉儲 Hive 一

英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲的目的是構建面向分析的整合化資料環境,為企業提供決策支援 decision support 資料倉儲是存資料的,企業的各種資料往裡面存,主要目的是為了分析有效資料,後續會基於它產出供分析挖掘的資料,或者資料應用需要的資料,如企業的...

Hive 資料倉儲

hive命令列模式 1 進入bin 執行.hiv 2 配置hive環境變數,直接執行命令 hive service cli 或 hive hive的web模式 執行hive service hwi 啟動後訪問http master 9999 hwi hive的遠端服務 預設埠 10000,執行啟動命...

資料倉儲Hive

資料倉儲是乙個面向主題的 整合的 相對穩定的 反映歷史變化的資料集合,用於支援管理決策。根本目的是為了支援企業內部的商業分析和決策,基於資料倉儲的分析結果,做出相關的經營決策.資料倉儲中的資料比較穩定,保留了大量歷史資料 而資料庫只儲存某一時刻的資料.對於傳統資料倉儲來說,既是資料儲存產品也是分析產...