spark相比hadoop的優勢如下

1、中間結果輸出

基於mr的計算引擎通常會將中間結果輸出到磁碟上，進行儲存和容錯。處於任務管道承接的考慮，當一些查詢翻譯到mr任務時，旺旺會產生多個stage，而這些串聯的stage又依賴於底層檔案系統（如hdfs）來儲存每乙個stage的輸出結果。

spark將執行模型抽象為通用的有向無環圖，dag計畫著可以將多個stage的任務串聯或者並行執行，而無需將stage中間結果輸出到hdfs上面，類似的引起包括dryad tez

1、資料格式和記憶體布局

由於mr schema on read處理方式會引起較大的處理開銷。spark抽象出分布式記憶體儲存結構彈性分布式資料集rdd，進行資料的儲存。rdd能支援粗粒度寫操作。但對於讀取操作。rdd可以精確到每條幾率，這使得rdd可以用來作為分布式索引，spark的特性是能夠控制資料在不同節點上的分割槽，使用者可以自定義分割槽策略，如hash分割槽。spark 和spark sql 在spark的基礎上實現了列儲存和列儲存壓縮

3、執行策略

mr在資料shuffle之前花費了大量的時間來排序，spark則可以減輕上述問題帶來的開銷，因為spark任務在shuffle中不是所有情景都需要排序，所以支援基於hash的分布式聚合，排程中採用更為通用的任務執行計畫 dag ，每一輪次的輸出結果在記憶體快取。

4、任務排程的開銷

傳統的mr系統，如hadoop 是為了首席執行官達數小時的批量作業而設計的，在某些極端情況下，提交乙個任務的延遲非常高。

spark採用了事件驅動的類庫 akka來啟動任務，通過執行緒池復用縣城來避免程序或執行緒啟動和切換開銷。

spark相比hadoop的優勢如下

Spark和Hadoop，孰優孰劣？

spark相比MapReduce的優勢

Spark相比MapReduce的優勢

spark相比hadoop的 優勢如下

Spark和Hadoop，孰優孰劣？

spark相比MapReduce的優勢

Spark相比MapReduce的優勢

相關推薦

spark相比hadoop的優勢如下