Spark 學習記錄 Spark 前言

2022-05-22 21:15:12 字數 558 閱讀 7404

spark是乙個非常強大而活躍的開源社群開源和維護的,他們來自不同的機構,其中很多的人都是我們華人,spark是2023年作為乙個研究專案在加州大學伯克利分校實驗室誕生,實驗室的一些研究人員在做迭代計算的時候發現mr效率極其低下,因而想要一種適合迭代計算的計算框架,spark應用而生。因此spark天生就是為了機器學習迭代演算法而生的。09年spark的**在學術會議上發表,同年spark專案正式成立,相比於mr,在某些任務上已經獲得了10~20倍的效能提公升。

2023年amplab開始基於spark開發更高層的元件,shark(spark sql的前身)和spark streaming。這些元件和其他元件一起被稱為伯克利資料分析工作棧。

2023年3月spark正式開源,並且在2023年6月交給了apache**會,現已成了apache**會下的最頂級專案。

由於spark是乙個極其活躍的專案,其社群也非常的繁榮,隨著版本號的不斷迭代,spark的貢獻者也越來越多,但是spark的版本更新還是操持著原有的發布速度,現在(本篇記錄發布)已更新到3.0版本,(目前很多公司還是在使用spark的1.6.x版本),故本次使用2.2.0版本進行安裝與學習

Spark學習筆記(一) spark簡介

spark是基於記憶體計算的大資料平行計算框架。09年誕生於加州大學伯克利分校amplab.spark是mapreduce的替代方案,相容hdfs hive等分布式儲存層,可融入hadoop的生態系統,以彌補mapreduce的不足。其主要優勢如下 中間結果輸出 可以將多stage的任務串聯或者並行...

Spark學習(一)之Spark初識

1.spark歷史及簡介 spark是乙個實現快速通用的集群計算平台。它是由加州大學伯克利分校amp實驗室 開發的通用記憶體平行計算框架,用來構建大型的 低延遲的資料分析應用程式。它擴充套件了廣泛使用的mapreduce計算模型。12年正式開源,距今6年歷史。spark執行架構的設計 cluster...

Spark學習01 Spark初識

中間結果輸出 基於mapreduce的計算引擎通常會將中間結果輸出到磁碟上,進行儲存和容錯。出於任務管道承接的,考慮,當一些查詢翻譯到mapreduce任務時,往往會產生多個stage,而這些串聯的stage又依賴於底層檔案系統 如hdfs 來儲存每乙個stage的輸出結果 是mapreduce的替...