spark sql中如何解決並行度低的問題？

1.spark.default.parrallelism

2.textfile()傳入第二個引數，指定partition數量

但是如果使用來spark sql,用spark sql的那個stage的並行度，你沒辦法自己指定，因為spark sql 自己會預設根據hive表對應的hdfs的block,自動設定spark sql查詢所在的那個stage的並行度。

你自己通過spark.default.parallelism引數指定的並行度，只會在沒有spark sql的stage中生效。

比如：你的第乙個stage,用spark sql從hive表中查詢了一些資料，然後做了一些transformation操作，接著做了乙個shuffle操作(例如groupbykey);下乙個stage,在stage之後，做了一些transformation操作。

hive表，對應了乙個hdfs檔案，有20個block;你自己設定了spark.default.parallelish引數為100；

你的第乙個stage的並行度，是不受你設定的引數控制的，就只有20task;第二個stage的並行度，才是你自己設定的100；

這樣會產生的問題就是：在第乙個stage中，可能有非常複雜的業務邏輯或者演算法，如果只有預設的20個並行度的話，每個task要處理很大的資料量，這就會導致第乙個stage執行的速度特別慢。而第二個就很快。

直接對spark sql查詢出來的rdd使用repartition，進行重新分割槽。

三種設定方式：

直接設定分割槽數量

dataframe.repartition(10)

根據字段進行分割槽，分割槽數量由 spark.sql.shuffle.partition 決定

dataframe.repartition(

根據字段進行分割槽，將獲得100個分割槽的dataframe，這種方式可以在join的時候極大的提高效率，但是同時得注意出現資料傾斜的問題

dataframe.repartition(100,"name")¨k9kdataframe.repartition(100,"name")