spark submit上傳jar包時間較長的解決

2021-09-22 17:42:12 字數 985 閱讀 2904

在spark-submit提交spark作業時,發現上傳spark依賴到hdfs時間長達數分鐘。

這個日誌之後在上傳程式依賴的jar,根據不同網路負荷,需要耗時數十秒甚至數分鐘,導致任務提交速度超級慢,在官網上查到出現這種現象的原因:

其中有這麼一句話:

to make spark runtime jars accessible from yarn side, you can specifyspark.yarn.archiveorspark.yarn.jars. for details please refer to spark properties. if neitherspark.yarn.archivenorspark.yarn.jarsis specified, spark will create a zip file with all jars under$spark_home/jarsand upload it to the distributed cache.

翻譯過來就是:

要想在yarn spark的runtime jars,需要指定spark.yarn.archive 或者 spark.yarn.jars。如果都這兩個引數都沒有指定,spark就會把$spark_home/jars/所有的jar上傳到分布式快取中。

1. 將$spark_home/jars/* 下spark執行依賴的jar上傳到hdfs上

hdfs dfs -mkdir /tmp/spark/lib_jars

hadoop fs -put $spark_home/jars/* hdfs:///tmp/spark/lib_jars

2. 在$spark_home/conf/spark-defaults.conf中, 增加如下資訊:

spark.yarn.jars hdfs:///tmp/spark/lib_jars/*.jar

spark submit常用引數

yarn模式預設啟動2個executor,無論你有多少的worker節點 standalone模式每個worker乙個executor,無法修改executor的數量 partition是rdd中的乙個dataset,一般預設都是2個 executor中的task數量由partition數 最後乙個...

Spark submit指令碼說明

在spark開發中會遇到spark submit指令碼的編寫,作為小白的我就在這裡對spark submit進行簡單的說明。vi wordcount.sh usr local spark bin spark submit class cn.spark.study.core.wordcountclus...

Spark submit指令碼說明

在spark開發中會遇到spark submit指令碼的編寫,作為小白的我就在這裡對spark submit進行簡單的說明。vi wordcount.sh usr local spark bin spark submit class cn.spark.study.core.wordcountclus...