Spark on Yarn 任務提交引數配置

2021-08-13 09:01:53 字數 669 閱讀 8351

以下引數配置為例子

spark-submit

--master yarn-cluster  / yarn-client    #使用集群排程模式/客戶端模式

--num-executors  2         # executor 數量

--executor-cores  16           #設定單個executor能併發執行task數,根據job設定,推薦值2-16 (這裡不是指cpu數,集群不限制cpu使用)

--driver-memory 4g       #driver的記憶體大小,推薦值2-6g,不宜太大

--executor-memory  6g      #單個executor的記憶體大小,根據job需求以及併發數設定,最大不要超過30g

1、containers的最大值就是spark 設定的 num-executors值 ;

2、實際占用的總的vcores≈(executor-cores)*containers(實際executors)

3、記憶體計算公式:((實際占用的總的containers)*(executor-memory+container暫用記憶體數,ambari預設1g))+(driver-memory)。

Spark on Yarn客戶端作業提交過程分析

我們將以乙個spark streaming為例,閱讀spark相關原始碼,簡述spark on yarn客戶端模式下作業提交流程。作業是通過spark submit指令碼提交的,因此整個流程從spark submit 開始分析。若有錯誤,希望各位看官指出。通過submit獲取提交 的mainclas...

spark yarn提交任務

yarn cluster命令 配置spark執行在yarn上 進入conf目錄下,然後編輯spark env.s 件 hadoop conf dir hadoop home etc hadoop 提交命令.spark submit master yarn class org.apache.spark...

spark on yarn日誌切割

由於spark on yarn的日誌會在stderr裡面一直追加,而且streaming又是長應用,那麼stderr會一直增長。解決辦法就是把stderr按天切割,這樣我們就可以刪除之前的日誌了。1.首先,把集群中的hadoop的log4j檔案 etc hadoop conf log4j.prope...