Spark on Yarn 任務提交引數配置

以下引數配置為例子

spark-submit

--master yarn-cluster / yarn-client　　　　#使用集群排程模式/客戶端模式

--num-executors 2 　　 # executor 數量

--executor-cores 16 　　　#設定單個executor能併發執行task數，根據job設定，推薦值2-16 （這裡不是指cpu數，集群不限制cpu使用）

--driver-memory 4g 　　　　　#driver的記憶體大小，推薦值2-6g，不宜太大

--executor-memory 6g 　　　 #單個executor的記憶體大小，根據job需求以及併發數設定，最大不要超過30g

1、containers的最大值就是spark 設定的 num-executors值 ;

2、實際占用的總的vcores≈（executor-cores）*containers（實際executors）

3、記憶體計算公式：((實際占用的總的containers)*(executor-memory+container暫用記憶體數，ambari預設1g))+(driver-memory)。

Spark on Yarn客戶端作業提交過程分析

我們將以乙個spark streaming為例,閱讀spark相關原始碼，簡述spark on yarn客戶端模式下作業提交流程。作業是通過spark submit指令碼提交的，因此整個流程從spark submit 開始分析。若有錯誤，希望各位看官指出。通過submit獲取提交的mainclas...

spark yarn提交任務

yarn cluster命令配置spark執行在yarn上進入conf目錄下,然後編輯spark env.s 件 hadoop conf dir hadoop home etc hadoop 提交命令.spark submit master yarn class org.apache.spark...

spark on yarn日誌切割

由於spark on yarn的日誌會在stderr裡面一直追加，而且streaming又是長應用，那麼stderr會一直增長。解決辦法就是把stderr按天切割，這樣我們就可以刪除之前的日誌了。1.首先，把集群中的hadoop的log4j檔案 etc hadoop conf log4j.prope...

Spark on Yarn 任務提交引數配置

Spark on Yarn客戶端作業提交過程分析

spark yarn提交任務

spark on yarn日誌切割

相關推薦