什麼是 Spark 為什麼存在 Spark

spark（計算引擎）

apache spark 是專為大規模資料處理而設計的快速通用的計算引擎。spark是uc berkeley amp lab (加州大學伯克利分校的amp實驗室)所開源的類hadoop mapreduce的通用並行框架，spark，擁有hadoop mapreduce所具有的優點；但不同於mapreduce的是——job中間輸出結果可以儲存在記憶體中，從而不再需要讀寫hdfs，因此spark能更好地適用於資料探勘與機器學習等需要迭代的mapreduce的演算法。

spark 是一種與 hadoop 相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 spark 在某些工作負載方面表現得更加優越，換句話說，spark 啟用了記憶體分布資料集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。

spark 是在 scala 語言中實現的，它將 scala 用作其應用程式框架。與 hadoop 不同，spark 和 scala 能夠緊密整合，其中的 scala 可以像操作本地集合物件一樣輕鬆地操作分布式資料集。

儘管建立 spark 是為了支援分布式資料集上的迭代作業，但是實際上它是對 hadoop 的補充，可以在 hadoop 檔案系統中並行執行。通過名為 mesos 的第三方集群框架可以支援此行為。spark 由加州大學伯克利分校 amp 實驗室 (algorithms, machines, and people lab) 開發，可用來構建大型的、低延遲的資料分析應用程式。

第一，mapreduce 模型的抽象層次低，大量的底層邏輯都需要開發者手工完成

第二，只提供 map 和 reduce 兩個操作

第三，在hadoop中，每個job的計算結果都會儲存在 hdfs檔案儲存系統中，所以每一步計算都要進行硬碟的讀取和寫入，大大增加了系統的延遲

什麼是 Spark 為什麼存在 Spark

為什麼使用Spark

為什麼MIP Cache存在

為什麼是 pgsql ？

什麼是 Spark 為什麼存在 Spark

為什麼使用Spark

為什麼MIP Cache存在

為什麼是 pgsql ？

相關推薦