Spark2 X的記憶體管理模型

spark2.x的記憶體管理模型如下圖所示：

spark中的記憶體使用大致包括兩種型別：執行和儲存。執行記憶體是指用於用於shuffle、join、排序、聚合等計算的記憶體，而儲存記憶體是指用於在集群中持久化和廣播內部資料的記憶體。在spark中，執行記憶體和儲存記憶體共享乙個統一的區域。當沒有使用執行記憶體時，儲存記憶體可以獲取所有可用記憶體，反之亦然。如有必要，執行記憶體可以占用儲存儲存，但僅限於總儲存記憶體使用量低於某個閾值。

該設計確保了幾種理想的特性。首先，不使用快取的應用程式可以使用整個空間執行，從而避免不必要的磁碟溢位。其次，使用快取的應用程式可以保留最小儲存空間。最後，這種方法為各種工作負載提供了合理的開箱即用效能，而無需使用者內部劃分記憶體的專業知識。

spark.memory.fraction預設大小為（jvm堆記憶體 - 300mb）的一小部分（預設值為0.6）。剩下的空間（40％）保留用於使用者資料結構，spark中的內部元資料，以及在稀疏和異常大的記錄的情況下防止oom錯誤。

spark.memory.storagefraction預設大小為(jvm堆記憶體 - 300mb)*0.6*0.5。

Spark2 X的記憶體管理模型

關於spark2 x後的SparkSession

CDH5 11安裝spark2 x詳細步驟

Spark中的記憶體管理一

Spark2 X的記憶體管理模型

關於spark2 x後的SparkSession

CDH5 11安裝spark2 x詳細步驟

Spark中的記憶體管理 一

相關推薦

Spark中的記憶體管理一