spark比MapReduce快的原因

park比mapreduce快的原因

spark是基於記憶體的，而mapreduce是基於磁碟的迭代

mapreduce的設設計：中間結果儲存在檔案中，提高了可靠性，減少了記憶體占用。但是犧牲了效能。

spark的設計：資料在記憶體中進行交換，要快一些，但是記憶體這個東西，可靠性不如磁碟。所以效能方面比mapreduce要好。

dag計算模型在迭代計算上還是比mapreduce的效率更高

有向無環圖是指：乙個圖從頂點出發，無法再回到原點，那麼這種圖叫做有向無環圖。

dag計算模型在spark任務排程

spark比mapreduce快的根本原因在於dag計算模型，一般而言，dag比mapreduce在大多數情況下可以減少shuffle次數，spark的dag相當於乙個改進版的mapreduce，如果計算不涉及其他節點進行資料交換，spark可以在記憶體中一次性完成這些操作，也就是中間結果無需落地磁碟，減少了磁碟io的操作。但是，如果計算過程中涉及到計算交換，spark也會把shuffle的資料寫磁碟。

spark比mapreduce快的主要原因是spark將反覆用到的資料cache到記憶體中，減少資料載入耗時。

spark是粗粒度資源排程，mapreduce是細粒度資源排程

rdd的五大特性

rdd是由一系列的partition組成

每乙個函式或者運算元實際上是作用在partition上的，

rdd之間具有相互依賴關係，

分割槽器是作用在（k,v）格式的rdd上的，分割槽器作用在shuffle的written階段，決定了每一條記錄寫入哪乙個分割槽

（k,v）格式的rdd:如果rdd中的陣列是由二元物件組成的，這個rdd就是（k,v）格式的rdd

每個rdd都會提供最佳的計算位置，有利於計算資料的本地化，符合大資料的計算原則，計算向資料移動。

Spark與MapReduce的區別

spark中最核心的概念是rdd 彈性分布式資料集近年來，隨著資料量的不斷增長，分布式集群平行計算如mapreduce dryad等被廣泛運用於處理日益增長的資料。這些設計優秀的計算模型大都具有容錯性好可擴充套件性強負載平衡程式設計方法簡單等優點，從而使得它們受到眾多企業的青睞，被大多數...

spark相比MapReduce的優勢

spark 比hadoop快的原因資料本地性排程優化傳輸優化，最主要的是基於記憶體計算和引入了dag。hadoop的計算結果在磁碟中，spark是在記憶體中資料計算任務需要多個步驟時，hadoop需要引入oozie等工具，但是spark有dag hadoop中，每乙個job 的計算結果都會儲...

Spark相比MapReduce的優勢

mapreduce是apache hadoop中用於大規模資料集計算的平行計算框架，目前被廣泛應用於企業的離線資料處理上。但是因為種種原因，mapreduce的效能並不理想。而spark作為資料處理框架界的後起之秀，很多方面都超過了mapreduce。下面來列出mapreduce的不足以及spark...

spark比MapReduce快的原因

Spark與MapReduce的區別

spark相比MapReduce的優勢

Spark相比MapReduce的優勢

相關推薦