spark任務提交引數說明

2021-10-09 19:39:13 字數 1844 閱讀 1372

#!/bin/sh

bin_dir=$(

cd `dirname $0`;

pwd)

#bin_dir="$(cd $(dirname $bash_source) && pwd)"

log_dir

=$/../logs

log_time=`

date +%y-%m-%d`

#main函式傳入引數

inputfile

='hdfs:'

outputfile

='hdfs:'

spark-submit --class wordcountv2 \

--master yarn

\--deploy-mode client \

--queue default \

--executor-memory 1g \

--num-executors 1

\--conf spark.default.parallelism=

500\

--conf spark.yarn.executor.memoryoverhead=10g \

--jars /opt/cloudera/parcels/hadoop_lzo/lib/hadoop/lib/hadoop-lzo.jar \

/home/spark/jars/myjars/spark-wordcount-2.0-snapshot.jar $inputfile

$outputfile

>

$/wordcount_$.log 2>

&1

–driver-memory

設定driver端記憶體大小,預設1g

如果需要使用collecttaketop運算元將rdd的資料全部拉取到driver上進行處理,那麼必須確保driver的記憶體足夠大,否則會出現oom記憶體溢位的問題(**中不要出現collect,除非在你知道資料量小的情況下)。

–executor-cores

該引數為設定每個executor能夠使用的cpu core的數量,預設為1

–executor-memory

該引數設定的是每個executor分配的記憶體的數量。需要注意的是,該記憶體數量是executor-cores中設定的核心數共用的記憶體數量。一般 6~10g 為宜,最大不超過20g,否則會導致gc代價過高,或資源浪費嚴重。

–num-executors

總的executors數量(總的task數量為executor-cores*num-executors), 預設為2。該值不應該超過佇列總cpu cores的1/3~1/2

–executor-instances

該引數決定了yarn集群中,最多能夠同時啟動的executors的例項個數。yarn中實際能夠啟動的最大executors的數量會小於等於該值。如果不能確定最大能夠啟動的executors數量,建議將該值先設定的盡量大。預設為num-executors數量

spark.driver.maxresultsize

限制每個executor複製資料到driver端的大小

spark.driver.memory

限制所有executor複製資料到driver端的大小

集群實際並行度為spark.executor.cores*spark.executor.instances=160

spark.default.parallelism、spark.sql.shuffle.partitions

這兩個引數一般為實際並行度的2~3倍(spark.executor.cores*spark.executor.instances)

Cache control引數說明

header中的cache control引數說明 php編碼 網頁的快取是由http訊息頭中的 cache control 來控制的,常見的取值有private no cache max age must revalidate等,預設為private。其作用根據不同的重新瀏覽方式分為以下幾種情況 ...

nmap引數說明

目標規範 可以通過主機名,ip位址,網路等 例 scanme.nmap.org,dream4.org 24,192.168.0.1 10.0.0 255.1 254 il 從指定檔案獲取主機或網路 ir 隨機選擇主機,0 不限制掃瞄主機數 exclude 排除指定主機或網路 excludefile ...

toString引數說明

格式化數值 有時,我們可能需要將數值以一定的格式來呈現,就需要對數值進行格式化。我們使用格式字串指定格式。格式字串採用以下形式 axx,其中 a 為格式說明符,指定格式化型別,xx 為精度說明符,控制格式化輸出的有效位數或小數字數。格式說明符 說明 示例 輸出 c 貨幣 2.5.tostring c...