spark dataframe設定分割槽數不起作用

2021-10-07 17:37:23 字數 602 閱讀 6289

spark專案中發現從hive讀取的資料,dataframe無法進行reparation的設定,非得轉成rdd才可以???

後來經過查閱資料和測試,原來是submit中設定的引數問題:

--conf spark.sql.adaptive.enabled=true    謹慎使用

原因:由於spark.sql.adaptive.enabled設定成true就是開啟動態分割槽了,自定義分割槽數將不管用;

我們設定成 false 後自定義分割槽數就管用了!!!

spark.sql.adaptive.enabled; // 是否開啟調整partition功能,如果開啟,spark.sql.shuffle.partitions設定的partition可能會被合併到乙個reducer裡執行

spark.sql.adaptive.shuffle.targetpostshuffleinputsize; //開啟spark.sql.adaptive.enabled後,兩個partition的和低於該閾值會合併到乙個reducer

spark.sql.adaptive.minnumpostshufflepartitions; // 開啟spark.sql.adaptive.enabled後,最小的分割槽

Spark DataFrame中的join型別

spark dataframe中join與sql很像,都有inner join,left join,right join,full join 那麼join方法如何實現不同的join型別呢?看其原型 def join right dataframe,usingcolumns seq string jo...

spark dataframe筆記(鏈結彙總)

spark dataframe筆記 dataframe行轉列 spark dataframe筆記 對dataframe一列值保留4位小數 spark dataframe筆記 按照dataframe某一列的數值排序,並增加一列索引 2 降序排 spark dataframe筆記 按照dataframe...

Spark DataFrame關於資料常用操作

sql語法 1.檢視全表資料 dataframe.show 2.檢視部分字段資料 有4種方法 1 dataframe.select 欄位名稱 show 2 dataframe.select 欄位名稱 show 推薦 3 dataframe.select col 欄位名稱 show 4 datafra...