Spark與MapReduce的區別

spark中最核心的概念是rdd(彈性分布式資料集)，近年來，隨著資料量的不斷增長，分布式集群平行計算(如mapreduce、dryad等)被廣泛運用於處理日益增長的資料。這些設計優秀的計算模型大都具有容錯性好、可擴充套件性強、負載平衡、程式設計方法簡單等優點，從而使得它們受到眾多企業的青睞，被大多數使用者用來進行大規模資料的處理。

但是，mapreduce這些平行計算大都是基於非迴圈的資料流模型，也就是說，一次資料過程包含從共享檔案系統讀取資料、進行計算、完成計算、寫入計算結果到共享儲存中，在計算過程中，不同計算節點之間保持高度並行，這樣的資料流模型使得那些需要反覆使用乙個特定資料集的迭代演算法無法高效地執行。

spark和spark使用的rdd就是為了解決這種問題而開發出來的，spark使用了一種特殊設計的資料結構，稱為rdd。rdd的乙個重要特徵是，分布式資料集可以在不同的並行環境當中被重複使用，這個特性將spark和其他並行資料流模型框架(如mapreduce)區別開。