開源集群計算環境Spark

2022-04-04 20:53:58 字數 659 閱讀 7677

最近使用mapreduce進行資料處理時,切實體會到了其不足的地方。由於要對模型進行引數優化,需要迭代多次求精。這本是機器學習演算法中非常常見的操作,但是使用mapreduce卻非常難以快速高效的完成。於是將目光轉向了另乙個開源集群計算環境spark。

spark 是一種與 hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 spark 在某些工作負載方面表現得更加優越,換句話說,spark 啟用了記憶體分布資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。

spark 是在 scala 語言中實現的,它將 scala 用作其應用程式框架。與 hadoop 不同,spark 和 scala 能夠緊密整合,其中的 scala 可以像操作本地集合物件一樣輕鬆地操作分布式資料集。

儘管建立 spark 是為了支援分布式資料集上的迭代作業,但是實際上它是對 hadoop 的補充,可以在 hadoo 檔案系統中並行執行。通過名為 mesos 的第三方集群框架可以支援此行為。spark 由加州大學伯克利分校 amp 實驗室 (algorithms, machines, and people lab) 開發,可用來構建大型的、低延遲的資料分析應用程式。

hadoop 和 spark 兩種計算集群同樣迭代情況下計算時間的比較

另一篇比較好的文章:  spark,一種快速資料分析替代方案

Spark 1 2 1 發布,開源集群計算系統

spark 是一種與 hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 spark 在某些工作負載方面表現得更加優越,換句話說,spark 啟用了記憶體分布資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。spark 是在 scala 語言中實現的...

Spark在Ambari集群環境的使用

進入安裝sparkclient的節點 su hdfs vi text.txt 隨便寫幾行東西 建立目錄 hdfs dfs mkdir user hdfs test 上傳檔案 hdfs dfs put test.txt user hdfs test 檢查檔案是否在 hdfs dfs ls user h...

spark集群模式

第一種 val conf sparkconf new sparkconf conf.setmaster spark spark1 7077 如果這樣寫的話 直接就在集群上面執行了 idea種 使用spark submit不用指定 master了就 spark submit class day06.s...