Spark效能調優九之常用運算元調優

經過一次filter操作以後，每個partition的資料量不同程度的變少了，這裡就出現了乙個問題；由於每個partition的資料量不一樣，出現了資料傾斜的問題。比如上圖中執行filter之後的第乙個partition的資料量還有9000條。

解決方案：針對上述出現的問題，我們可以將filter操作之後的資料進行壓縮處理；一方面減少partition的數量，從而減少task的數量；另一方面通過壓縮處理之後，盡量讓每個partition的資料量差不多，減少資料傾斜情況的出現，從而避免某個task執行速度特別慢。coalesce運算元就是針對上述出現的問題的乙個解決方案

在spark專案中，如果在某些地方使用了sparksql，那麼使用了sparksql的那個stage的並行度就沒有辦法通過手動設定了，而是由程式自己決定。那麼，我們通過什麼樣的手段來提高這些stage的並行度呢？其實解決這個問題的辦法就是使partition的數量增多，從而間接的提高了task的併發度，要提高partition的數量，該怎麼做呢？就是使用repartition運算元，對sparksql查詢出來的資料重新進行分割槽操作，此時可以增加分割槽的個數。

Spark效能調優九之常用運算元調優

Spark效能調優之運算元調優（二）

技術難點 Spark效能調優 RDD運算元調優篇

Spark效能優化 2 運算元調優

Spark效能調優九之常用運算元調優

Spark效能調優 之 運算元調優（二）

技術難點 Spark效能調優 RDD運算元調優篇

Spark效能優化 2 運算元調優

相關推薦

Spark效能調優之運算元調優（二）