spark效能調優之提高並行度

並行度就是spark作業中，各個stage的task數量，也就代表了spark作業的在各個階段（stage）的並行度。

如果不調節並行度，導致並行度過低，會怎麼樣？

假設，現在已經在spark-submit指令碼裡面，給我們的spark作業分配了足夠多的資源，比如50個executor，每個executor有10g記憶體，每個executor有3個cpu core。基本已經達到了集群或者yarn佇列的資源上限。

因為實際情況，與理想情況不同的，有些task會執行的快一點，比如50s就完了，有些task，可能會慢一點，要1分半才執行完，所以如果你的task數量，剛好設定的跟cpu core數量相同，可能還是會導致資源的浪費，因為，比如150個task，10個先執行完了，剩餘140個還在執行，但是這個時候，有10個cpu core就空閒出來了，就導致了浪費。那如果task數量設定成cpu core總數的2~3倍，那麼乙個task執行完了以後，另乙個task馬上可以補上來，就盡量讓cpu core不要空閒，同時也是盡量提公升spark作業執行的效率和速度，提公升效能。

spark.default.parallelism

sparkconf conf = new sparkconf()

conf.set("spark.default.parallelism", "500")

spark效能調優之提高並行度

spark調優並行度調優

spark調優，調節並行度

效能調優之調節並行度

spark效能調優之提高並行度

spark調優 並行度調優

spark調優，調節並行度

效能調優之調節並行度

相關推薦

spark調優並行度調優