spark工作機制見解

1.spark執行機制總覽

在spark的底層實現中，通過rdd進行資料的管理，rdd中有一組分布在不同節點的資料塊，當spark的應用在對這個rdd進行操作時，排程器將包含操作的任務分發到指定的機器上執行，在計算節點通過多執行緒的方式執行任務。乙個操作執行完畢，rdd變轉換為另乙個rdd，這樣，使用者的操作依次執行。spark為了系統的記憶體不至於快速用完，使用延遲執行的方式執行，即只有操作累計到action（行動），運算元才會觸發整個操作序列的執行，中間結果不會單獨再重新分配記憶體，而是在同乙個資料塊上進行流水線操作。

在集群的程式實現上，有乙個重要的分布式資料結構，即彈性分布式資料集。spark實現了分布式計算和任務處理，並實現了任務的分發，跟蹤，執行等工作，最終聚合結果，完成spark應用的計算。

對rdd的塊管理通過blockmanager完成，blockmanager將資料抽象偽資料塊，在記憶體或者磁碟進行儲存，如果資料不在本節點，則還可以通過遠端節點複製到本機進行計算。

在計算節點的執行器executor中會建立執行緒池，這個執行器將需要執行的任務通過執行緒池併發執行。

spark工作機制見解

Spark工作機制

Spark工作機制簡述

Spark系列三 Spark的工作機制

spark工作機制見解

Spark工作機制

Spark工作機制簡述

Spark系列 三 Spark的工作機制

相關推薦

Spark系列三 Spark的工作機制