spark工作機制見解

2021-07-25 21:56:22 字數 619 閱讀 1611

1.spark執行機制總覽

在spark的底層實現中,通過rdd進行資料的管理,rdd中有一組分布在不同節點的資料塊,當spark的應用在對這個rdd進行操作時,排程器將包含操作的任務分發到指定的機器上執行,在計算節點通過多執行緒的方式執行任務。乙個操作執行完畢,rdd變轉換為另乙個rdd,這樣,使用者的操作依次執行。spark為了系統的記憶體不至於快速用完,使用延遲執行的方式執行,即只有操作累計到action(行動),運算元才會觸發整個操作序列的執行,中間結果不會單獨再重新分配記憶體,而是在同乙個資料塊上進行流水線操作。

在集群的程式實現上,有乙個重要的分布式資料結構,即彈性分布式資料集。spark實現了分布式計算和任務處理,並實現了任務的分發,跟蹤,執行等工作,最終聚合結果,完成spark應用的計算。

對rdd的塊管理通過blockmanager完成,blockmanager將資料抽象偽資料塊,在記憶體或者磁碟進行儲存,如果資料不在本節點,則還可以通過遠端節點複製到本機進行計算。

在計算節點的執行器executor中會建立執行緒池,這個執行器將需要執行的任務通過執行緒池併發執行。

Spark工作機制

1.使用者提交作業,由driver建立乙個sparkcontext,分配並監控資源使用情況。2.資源管理器為其分配資源,啟動executor程序。3.sparkcontext根據rdd的依賴關係構建dag圖,提交給dagscheduler解析成stage,然後提交給taskscheduler,將st...

Spark工作機制簡述

spark應用提交後經歷了一系列的轉換,最後成為task在每個節點上執行.每個任務對應相應的乙個資料塊,使用使用者定義的函式處理資料塊.spark實現了分布式計算和任務處理,並實現了任務的分發,跟蹤,執行等工作.最終聚合結果,完成spark應用的計算.對rdd的塊管理通過blockmanger完成....

Spark系列 三 Spark的工作機制

什麼時候才能回歸到看 寫感想的日子呀 剛剛交完房租的我血槽已空。看了師妹關於spark報告的ppt,好懷念學生時代開組會的時光啊,雖然我已經離開學校不長不短兩個月,但我還是非常認真的翻閱了,並作為大自然的搬運工來搬運知識了。1 local,本地執行,通過多執行緒來實現平行計算。2 本地偽集群執行模式...