開源集群計算環境Spark

最近使用mapreduce進行資料處理時，切實體會到了其不足的地方。由於要對模型進行引數優化，需要迭代多次求精。這本是機器學習演算法中非常常見的操作，但是使用mapreduce卻非常難以快速高效的完成。於是將目光轉向了另乙個開源集群計算環境spark。

spark 是一種與 hadoop 相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 spark 在某些工作負載方面表現得更加優越，換句話說，spark 啟用了記憶體分布資料集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。

spark 是在 scala 語言中實現的，它將 scala 用作其應用程式框架。與 hadoop 不同，spark 和 scala 能夠緊密整合，其中的 scala 可以像操作本地集合物件一樣輕鬆地操作分布式資料集。

儘管建立 spark 是為了支援分布式資料集上的迭代作業，但是實際上它是對 hadoop 的補充，可以在 hadoo 檔案系統中並行執行。通過名為 mesos 的第三方集群框架可以支援此行為。spark 由加州大學伯克利分校 amp 實驗室 (algorithms, machines, and people lab) 開發，可用來構建大型的、低延遲的資料分析應用程式。

hadoop 和 spark 兩種計算集群同樣迭代情況下計算時間的比較

另一篇比較好的文章： spark，一種快速資料分析替代方案

開源集群計算環境Spark

Spark 1 2 1 發布，開源集群計算系統

Spark在Ambari集群環境的使用

spark集群模式

開源集群計算環境Spark

Spark 1 2 1 發布，開源集群計算系統

Spark在Ambari集群環境的使用

spark集群模式

相關推薦