spark記憶體概述

spark程序是以jvm程序執行的，可以通過-xmx和-xms配置堆疊大小，它是如何使用堆疊呢？下面是spark記憶體分配圖。

spark預設jvm堆為512mb，為了避免oom錯誤，只使用90%。通過spark.storage.safetyfraction來設定。spark通過記憶體來儲存需要處理的資料，使用安全空間的60%，通過 spark.storage.memoryfraction來控制。如果我們想知道spark快取資料可以使用多少空間？假設執行任務需要executors數為n，那麼可使用空間為n*90%*60%*512mb，但實際快取資料的空間還要減去unroll memory。

shuffle memory的記憶體為「heap size」 * spark.shuffle.safetyfraction * spark.shuffle.memoryfraction。預設spark.shuffle.safetyfraction 是 0.8 ，spark.shuffle.memoryfraction是0.2 ，因此shuffle memory為 0.8*0.2*512mb = 0.16*512mb，shuffle memory為shuffle用作資料的排序等。

unroll memory的記憶體為spark.storage.unrollfraction * spark.storage.memoryfraction * spark.storage.safetyfraction，即0.2 * 0.6 * 0.9 * 512mb = 0.108 * 512mb。unroll memory用作資料序列化和反序列化。

提出了乙個新的記憶體管理模型： unified memory management。打破executionmemory 和 storagememory 這種分明的界限。如果現在沒有execution的需要，那麼所有的記憶體都可以給storage用，反過來也是一樣的。同時execution可以evict storage的部分記憶體，但是反過來不行。在新的記憶體管理框架上使用兩個引數來控制spark.memory.fraction和spark.memory.storagefraction。

spark 框架

spark 1.6 記憶體管理模型( unified memory management)分析

spark記憶體概述

Spark 記憶體管理概述

Spark 概述安裝

Spark執行流程概述

spark記憶體概述

Spark 記憶體管理概述

Spark 概述 安裝

Spark執行流程概述

相關推薦

Spark 概述安裝