Spark調優詳解

調優概述

spark效能調優(1)

spark效能調優(2)

調優主要方法

開發調優

資料本地化調優

資料傾斜調優

shuffle調優

資源調優

jvm調優

spark中對於乙個rdd的執行多次運算元的預設原理是這樣的：每次你對乙個rdd執行乙個運算元的操作的時候，都會從源頭計算一遍（因為rdd是根據finalstage遞迴往前找到第乙個運算元開始執行），計算出來那個rdd來，然後對這個rdd執行你的運算元操作，這種方式的效能是很差的。

cache機制是每計算出乙個要cache的partition就直接將其cache到記憶體了，但是checkpoint沒有直接使用這種第一次計算得到就儲存的方法，而是等到job結束後另外啟動專門的job去完成checkpoint，也就是說需要checkpoint的rdd會被計算兩次，因此