Spark Spark調優 資源調優

2021-08-20 07:13:48 字數 450 閱讀 9653

spark在乙個executor的記憶體分為三塊,

1. 一塊是execution記憶體

2. 一塊是storge 記憶體

3. 一塊是其他記憶體

執行記憶體是執行記憶體,加入,聚合都是在這部分記憶體中執行.shuffle的資料也會先快取在這個記憶體中,滿了再寫入磁碟,能減少io,其實地圖過程也是在這個記憶體中執行的。

storge記憶體是儲存broadcast,cache,persist資料的地方

其他記憶體是程式執行時預留給自己的記憶體(執行**的時候使用)

execution和storage是spark executor中的記憶體大戶,other占用記憶體相對較少很多。在spark-1.6.0以前的版本,execution和storage的記憶體是固定分配的,使用的引數spark.shuffle.memoryfraction(execution記憶體占用e

spark 資源引數調優

了解完了spark作業執行的基本原理之後,對資源相關的引數就容易理解了。所謂的spark資源引數調優,其實主要就是對spark執行過程中各個使用資源的地方,通過調節各種引數,來優化資源使用的效率,從而提公升spark作業的執行效能。以下引數就是spark中主要的資源引數,每個引數都對應著作業執行原理...

Yarn的資源調優

每個job提交到yarn上執行時,都會分配container容器去執行,而這個容器需要資源才能執行,這個資源就是cpu和記憶體。1 cpu資源排程 目前的cpu被yarn劃分為虛擬cpu,這是yarn自己引入的概念,因為每個伺服器的cpu計算能力不一樣,有的機器可能是 其他機器的計算能力的2倍,然後...

spark調優 shuffle調優

基於spark1.6 引數可以通過 new sparkcontext set 來設定,也可以通過命令的引數設定 conf spark.shuffle.file.buffer 預設值 32k 引數說明 該引數用於設定shuffle write task的bufferedoutputstream的buf...