主流大資料SQL引擎技術博弈，誰為王？

文章講的是主流大資料sql引擎技術博弈，誰為王，

近日，atscale公布了第四季度主流大資料sql引擎的測試結果，主要針對spark、impala、hive/tez以及presto。

測試結果證實了我們早已實踐出的一些事情：impala是中等大小資料庫查詢的最佳選擇，並且已經積累了不少使用者，presto在這方面也做得不錯。hive和spark更適用於長時間分析查詢。

atscale產品管理方面副總joshua klar表示，許多公司客戶使用兩個引擎。通常他們認為hive更穩定，並且更習慣於使用hive進行長時間查詢。所有的hive客戶都在tez執行hive，再也沒有人使用mapreduce了，不過spark基本集合了hadoop mapreduce的所有優點。以我的經驗來看，spark與hive之間的穩定性差距很久之前就不存在了，只要你懂得如何進行記憶體管理。從長遠來看，我並不看好在tez上使用hive。因為對於一些普通的bi查詢，impala和presto的表現似乎更加優秀。在記憶體逐漸變得廉價的時代，如果你可以承擔得起在記憶體中進行大規模資料分析，剩下的基本就是bi模式的東西了。

根據atscale測試結果，所有sql引擎的效率較之過去都有明顯提高，通過使用乙個長久存活的守護程式(llap)代替與hdfs datanode的直接互動和乙個緊密整合的dag框架，hive/tez取得了令人矚目的成果。不過，效能上依然不及impala和spark，但也不像以前一樣緩慢笨拙了。推出了llap的hive/tez現在已在bi場景中實踐了。

完整的測試報告非常值得一讀，其中涉及的幾大亮點有：

1、spark 2.0應對大量查詢的效能大幅改善，平均為1.6版本的2.4倍。小型查詢效能早已經很好了，2.0保持了同樣的水平。

2、impala 2.6應對大量查詢的效能提高為2.3版本的2.8倍。小型查詢的效能維持原樣。

黑斑羚2.6是2.8 x 2.3版本一樣快大型查詢。小的查詢效能已經好,保持大致相同。

3、推出了llap之後的hive 2.1的查詢速度是1.2版本的3.4倍，並且小型查詢效能也提高為原來的兩倍。如果你在使用hive，這是乙個不可錯過的版本公升級的機會喲。

雖說未來的sql引擎還有很長的路要走，但好在過去一年，所有引擎的效能都得到了極大地提高，impala和preato繼續引領著bi型別查詢，spark在大量查詢方面的效能佔據領先地位。無論如何，你的sql引擎是時候公升級了!

主流大資料SQL引擎技術博弈，誰為王？

學大資料需要學哪些內容？大資料主流技術棧簡介

分布式，雲計算和大資料主流技術

大資料上的流式SQL引擎 StreamCQL

主流大資料SQL引擎技術博弈，誰為王？

學大資料需要學哪些內容？大資料主流技術棧簡介

分布式，雲計算和大資料主流技術

大資料上的流式SQL引擎 StreamCQL

相關推薦