Spark並行度設定總結

spark效能調優之合理設定並行度

1.spark的並行度指的是什麼？ spark作業中，各個stage的task的數量，也就代表了spark作業在各個階段stage的並行度！當分配完所能分配的最大資源了，然後對應資源去調節程式的並行度，如果並行度沒有與資源相匹配，那麼導致你分配下去的資源都浪費掉了。同時並行執行，還可以讓每個task要處理的數量變少（很簡單的原理。合理設定並行度，可以充分利用集群資源，減少每個task處理數據量，而增加效能加快執行速度。）

2.如何去提高並行度？

spark.de****t.parallelism 預設是沒有值的，如果設定了值比如說10，是在shuffle的過程才會起作用（val rdd2 = rdd1.reducebykey(_+_) //rdd2的分割槽數就是10，rdd1的分割槽數不受這個引數的影響）

new sparkconf().set(「spark.de****t.parallelism」,」「500)

3、如果讀取的資料在hdfs上，增加block數，預設情況下split與 block是一對一的，而split又與rdd中的partition對應，所以增加了block 數，也就提高了並行度。 4、rdd.repartition，給rdd重新設定partition的數量 5、reducebykey的運算元指定partition的數量 val rdd2 = rdd1.reducebykey(_+_,10) val rdd3 = rdd2.map.filter.reducebykey(_+_) 6、val rdd3 = rdd1.join（rdd2） rdd3裡面partiiton的數量是由父rdd中最多的partition數量來決定，因此使用join運算元的時候，增加父rdd中partition的數量。 7、spark.sql.shuffle.partitions //spark sql中shuffle過程中 partitions的數量

Spark並行度設定總結

spark並行度學習筆記

Spark任務並行度分析

streaming 並行度設定

Spark並行度設定總結

spark並行度學習筆記

Spark任務並行度分析

streaming 並行度設定

相關推薦