Hive和並行資料倉儲的比較

2021-09-07 18:58:28 字數 557 閱讀 8697

另補充我的一些觀點:

hive本意是在hadoop的mapreduce程式設計模型上進行包裝,使其支援宣告式的sql查詢,其各種opr都是使用mapreduce模型模擬實現。這樣的好處就是與hadoop無縫融合,但是,mapreduce模型最適用的場景是聚集類的操作,即資料庫中的group by,其模型並不是為join量身打造,即使能夠通過設計實現join操作,但是效率以及可選擇性上也大大折扣,有點削足適履的感覺。

我覺得如果不拘束在mapreduce模型上,而是對於各種操作尋求最合適的模型而不是拘束在mapreduce模型上,但是充分吸收其fault tolerance的特性,可能會較好。

但是,fault tolerance的滿足需要對中間結果進行物化,這與pipeline又會矛盾。兩者需要尋找乙個平衡點。我覺得部分物化、部分pipeline的方式也許是一種選擇,類似於checkpoint。這樣fault tolerance的粒度不是mapreduce模式下的單個操作,也不是pipeline模式下的整個查詢,而是居中,即查詢中的子操作塊。

總的感覺,hive的工作更傾向於工程,而不是模式的創新。但是作為初級產品,還是很有意義的。

資料倉儲和ODS 的並行

1.業務資料 ods 資料倉儲 優點 這樣做的好處是ods的資料與資料倉儲的資料高度統一 開發成本低,至少開發一次並應用到ods即可 可見ods是發揮承上啟下的作用,調研阿里巴巴的資料部門也是這麼實現的。缺點 資料倉儲需要的所有資料都需要走ods,那麼ods的靈活性必然受到影響,甚至不利於擴充套件 ...

Hive 資料倉儲

hive命令列模式 1 進入bin 執行.hiv 2 配置hive環境變數,直接執行命令 hive service cli 或 hive hive的web模式 執行hive service hwi 啟動後訪問http master 9999 hwi hive的遠端服務 預設埠 10000,執行啟動命...

資料倉儲Hive

資料倉儲是乙個面向主題的 整合的 相對穩定的 反映歷史變化的資料集合,用於支援管理決策。根本目的是為了支援企業內部的商業分析和決策,基於資料倉儲的分析結果,做出相關的經營決策.資料倉儲中的資料比較穩定,保留了大量歷史資料 而資料庫只儲存某一時刻的資料.對於傳統資料倉儲來說,既是資料儲存產品也是分析產...