主流大資料SQL引擎技術博弈,誰為王?

2021-09-23 05:25:27 字數 1300 閱讀 1158

文章講的是主流大資料sql引擎技術博弈,誰為王

近日,atscale公布了第四季度主流大資料sql引擎的測試結果,主要針對spark、impala、hive/tez以及presto。

測試結果證實了我們早已實踐出的一些事情:impala是中等大小資料庫查詢的最佳選擇,並且已經積累了不少使用者,presto在這方面也做得不錯。hive和spark更適用於長時間分析查詢。

atscale產品管理方面副總joshua klar表示,許多公司客戶使用兩個引擎。通常他們認為hive更穩定,並且更習慣於使用hive進行長時間查詢。所有的hive客戶都在tez執行hive,再也沒有人使用mapreduce了,不過spark基本集合了hadoop mapreduce的所有優點。以我的經驗來看,spark與hive之間的穩定性差距很久之前就不存在了,只要你懂得如何進行記憶體管理。從長遠來看,我並不看好在tez上使用hive。因為對於一些普通的bi查詢,impala和presto的表現似乎更加優秀。在記憶體逐漸變得廉價的時代,如果你可以承擔得起在記憶體中進行大規模資料分析,剩下的基本就是bi模式的東西了。

根據atscale測試結果,所有sql引擎的效率較之過去都有明顯提高,通過使用乙個長久存活的守護程式(llap)代替與hdfs datanode的直接互動和乙個緊密整合的dag框架,hive/tez取得了令人矚目的成果。不過,效能上依然不及impala和spark,但也不像以前一樣緩慢笨拙了。推出了llap的hive/tez現在已在bi場景中實踐了。

完整的測試報告非常值得一讀,其中涉及的幾大亮點有:

1、spark 2.0應對大量查詢的效能大幅改善,平均為1.6版本的2.4倍。小型查詢效能早已經很好了,2.0保持了同樣的水平。

2、impala 2.6應對大量查詢的效能提高為2.3版本的2.8倍。小型查詢的效能維持原樣。

黑斑羚2.6是2.8 x 2.3版本一樣快大型查詢。小的查詢效能已經好,保持大致相同。

3、推出了llap之後的hive 2.1的查詢速度是1.2版本的3.4倍,並且小型查詢效能也提高為原來的兩倍。如果你在使用hive,這是乙個不可錯過的版本公升級的機會喲。

雖說未來的sql引擎還有很長的路要走,但好在過去一年,所有引擎的效能都得到了極大地提高,impala和preato繼續引領著bi型別查詢,spark在大量查詢方面的效能佔據領先地位。無論如何,你的sql引擎是時候公升級了!

學大資料需要學哪些內容?大資料主流技術棧簡介

被廣泛關注的大資料,這幾年在國內的發展,可以說是進入了比較平穩的乙個時期,基本上企業對於技術開發人員的要求,都開始與大資料接軌。那麼學大資料需要學哪些內容,今天我們從大資料主流技術棧開始,為大家做個簡單介紹。大資料發展速度很快,對技術的需求也在不斷更新迭代,從第一代的hadoop為王,到現在的had...

分布式,雲計算和大資料主流技術

1.apache solr 分布式資訊檢索 2.apache couchdb 非關係型資料庫 3.apache storm 流資料計算平台 4.apache uima 分布式資訊管理 5.hdfs 分布式檔案系統 6.gfs 分布式檔案系統 7.mapreduce 平行計算框架 8.bigtable...

大資料上的流式SQL引擎 StreamCQL

華為在近期的華為開發者大會上宣布開源其流處理平台sql引擎streamcql stream continuous query language 表示歡迎更多的開發者加入社群,並將持續提供新的特性,目前在github 上已能看到其專案 和文件。在最近的一次meetup上,華為實時分析團隊高階技術專家 ...