Spark效能優化之Shuffle效能調優

一：shuffle效能調優

1，問題：shuffle output file lost？真正的原因是gc導致的！！！如果gc尤其是full gc產生通常會導致執行緒停止工作，這個時候下乙個stage的task在預設情況下就會嘗試重試來獲取資料，一般重試3次每次重試的時間為5s，也就是說預設情況下15s內如果還是無法抓到資料的話，就會出現shuffle output file lost等情況，進而會導致task重試，甚至會導致stage重試，最嚴重的是會導致app失敗；在這個時候首先就要採用高效的記憶體資料結構和序列化機制、jvm的調優來減少full gc的產生；

2，在shuffle的時候，reducer端獲取資料就會有乙個指定大小的快取空間，如果記憶體足夠達到情況下，可以適當的增大該快取空間，否則會spill到磁碟，影響效率。

此時可以調整（增大）spark.reducer.maxsizeinflight引數；

3，在shufflemaptask端通常也會增大map任務的寫磁碟的快取，預設情況下是32k，spark.shuffle.file.buffer；

4，調整獲取shuffle資料的重試次數，預設是3次，通常建議增大重試次數；調整獲取shuffle資料重試的時間間隔，預設是5s，強烈建議提高該時間，spark.shuffle.io.retrywait；

5，在reducer端做aggregation的時候，預設是20%的記憶體用來做aggregation，如果超出了這個大小就會溢位到磁碟上，建議調大百分比來提高效能；

Spark效能優化之Shuffle效能調優

spark效能優化

spark的效能優化

spark效能優化二

Spark效能優化之Shuffle效能調優

spark效能優化

spark的效能優化

spark效能優化二

相關推薦