Hive和並行資料倉儲的比較

另補充我的一些觀點：

hive本意是在hadoop的mapreduce程式設計模型上進行包裝，使其支援宣告式的sql查詢，其各種opr都是使用mapreduce模型模擬實現。這樣的好處就是與hadoop無縫融合，但是，mapreduce模型最適用的場景是聚集類的操作，即資料庫中的group by，其模型並不是為join量身打造，即使能夠通過設計實現join操作，但是效率以及可選擇性上也大大折扣，有點削足適履的感覺。

我覺得如果不拘束在mapreduce模型上，而是對於各種操作尋求最合適的模型而不是拘束在mapreduce模型上，但是充分吸收其fault tolerance的特性，可能會較好。

但是，fault tolerance的滿足需要對中間結果進行物化，這與pipeline又會矛盾。兩者需要尋找乙個平衡點。我覺得部分物化、部分pipeline的方式也許是一種選擇，類似於checkpoint。這樣fault tolerance的粒度不是mapreduce模式下的單個操作，也不是pipeline模式下的整個查詢，而是居中，即查詢中的子操作塊。

總的感覺，hive的工作更傾向於工程，而不是模式的創新。但是作為初級產品，還是很有意義的。

Hive和並行資料倉儲的比較

資料倉儲和ODS 的並行

Hive 資料倉儲

資料倉儲Hive

Hive和並行資料倉儲的比較

資料倉儲和ODS 的並行

Hive 資料倉儲

資料倉儲Hive

相關推薦