Spark 0 Spark版本及編譯

2021-09-25 04:18:12 字數 591 閱讀 7526

學習用2.4.2

大版本 apis change

次版本 apis/features

小版本 (核心的東西沒有變,只是修復了一些bug)所以小版本要選大的

小版本如果是0,最好不要選,沒有被修復過,bug多

由於hadoop-2.6.0-cdh5.7.0和官網的hadoop2.6.0不一樣。並且,spark需要支援k8s、hive等等,spark對應的hadoop版本需要是cdh版本的,所以spark需要使用自己編譯後的版本。

./dev/make-distribution.sh --name 2.6.0-cdh5.7.0  --tgz  -phadoop-2.6 -phive -phive-thriftserver  -pyarn -pkubernetes -dhadoop.version=2.6.0-cdh5.7.0
make-distribution的指令碼其實是將mvn的命令包起來,並且最後會打成tgz包,名字

spark-$version-bin-$name.tgz	spark-2.4.2-bin-2.6.0-cdh5.7.0.tgz
具體的編譯過程,見:

Spark版本說明

source code spark 原始碼,需要編譯才能使用,另外 scala 2.11 需要使用原始碼編譯才可使用 pre build with user provided hadoop hadoop free 版,可應用到任意 hadoop 版本 pre build for hadoop 2.6...

從0開始學spark

參考 local 模式 即單機模式,這種安裝加壓即可,具體安裝方法穿插在 standalone 模式 standalone 模式 即搭建 spark 集群,但不與其他框架整合,如 yarn,此時 spark 執行在集群中 基於 yarn 的 spark 集群部署 yarn 集群 spark 集群,此...

spark關鍵版本簡要梳理

好久沒有看 spark 了,發現 spark 都開始發力 ai了。簡單梳理下 spark 的發展脈絡如下 1 spark 0.x 主要對標 mapreduce 用記憶體計算的能力替換 mapreduce 依賴磁碟,最主要的概念就是 rdd。2 最主要解決是易用性問題,用 sparksql 統一了程式...