spark官方文件 Spark(1) 寫在前面

2021-10-12 16:54:08 字數 689 閱讀 9663

原始碼環境說明:

spark: 2.2.0

clustermanager: yarn

hadoop: 2.6.5

spark版本進入2.0.0以後更新速度明顯放緩,最新的2.4.0版本穩定性有待驗證,投入生產環境為時尚早且更新的新特性較少,所以選擇了2.2.0版本作為投稿的原始碼環境。原始碼的分析順序按照spark-core 到 spark-sql 再到spark-graphx的順序。至於spark_mllib什麼的去死吧,會調參就行了。

上面的圖是我從官網上拿下來的,我感覺畫的挺清楚了就不重新再畫了。為什麼我要先放這張圖呢?因為首先最重要的乙個問題我們要弄明白:「spark作為分布式計算系統都包括哪些角色?」。這裡我還是上一張官網的圖,官方文件說的比較詳細。

sparkcore整體分為四個部分:remote procedure call(遠端呼叫),storage(儲存),schedule(排程)compute(計算)。我們分析的順序也按照這個順序來。

spark官方文件 Spark快速開發框架

本人從 2014 年開始使用 apache spark,基於以往專案經驗,為了降低專案開發複雜度,減少開發成本,開發了 light spark 框架。本框架遮蔽了底層技術細節,讓開發人員面向 sql 程式設計,更專注於業務邏輯,減少開發過程中 debug 工作,讓 apache spark 更方便使...

大資料學習之Spark(1)

2019.09.101 spark的特點 2 總體架構 包括 3 常見術語 兩個抽象部件 sparkcontext rdd 必須建立乙個sparkcontext類例項,且只能擁有乙個啟用的sparkcontext類例項 1 最簡便方法 val sc new sparkcontext 2 建立spar...

Spark學習之路 官方文件 簡單

英文原文 中文文件 1.1 rdd programming guide 英文原文 中文文件 1.2 spark sql,dataframes and datasets guide 英文原文 中文文件 看完官方的技術文件實踐後,自己可以試著實現spark的三種執行方式 spark2.1.1中用各種模式...