spark學習12(spark架構原理)

2022-04-22 19:51:12 字數 748 閱讀 5217

spark採用的是主從式的架構,主節點叫master,從節點是worker

我們編寫的spark就在driver上,由driver程序執行。

driver是spark集群的節點之一,或你提交spark程式的機器

master是集群的資源管理者和排程者,類似yarn裡面的resourcemanger,還負責監控整個集群的監控狀況

用自己的記憶體快取rdd資料

使用記憶體對partition的資料進行計算

預設情況下是乙個block檔案塊是乙個rdd的分割槽,乙個分割槽就是乙個task任務

1)會啟動driver,會做一些初始化的工作,在初始化的這個過程中,會傳送請求給master,請求註冊,這樣master就知道有活要幹了

2)master接受到請求以後,master傳送請求給worker,請求資源排程,說白了請求資源排程就是需要在worker節點上面,啟動executor。具體啟動幾個executor,是在提交**的時候制定好的

3)executor啟動好後會向driver進行反向註冊,這樣driver就知道哪些executor為該任務進行服務

4)driver註冊了executor以後,這個才開始執行spark程式,首先建立rdd,後面就是對rdd進行運算元操作,根據對這些rdd的定義,會形成一堆task任務,比如進行flatmap,map等操作。將task任務傳送給executor,executor會接收task任務,就在executor啟動task

5)task任務會對rdd裡面的partition進行運算元操作

Spark 學習記錄 Spark 前言

spark是乙個非常強大而活躍的開源社群開源和維護的,他們來自不同的機構,其中很多的人都是我們華人,spark是2009年作為乙個研究專案在加州大學伯克利分校實驗室誕生,實驗室的一些研究人員在做迭代計算的時候發現mr效率極其低下,因而想要一種適合迭代計算的計算框架,spark應用而生。因此spark...

Spark學習筆記(一) spark簡介

spark是基於記憶體計算的大資料平行計算框架。09年誕生於加州大學伯克利分校amplab.spark是mapreduce的替代方案,相容hdfs hive等分布式儲存層,可融入hadoop的生態系統,以彌補mapreduce的不足。其主要優勢如下 中間結果輸出 可以將多stage的任務串聯或者並行...

Spark學習(一)之Spark初識

1.spark歷史及簡介 spark是乙個實現快速通用的集群計算平台。它是由加州大學伯克利分校amp實驗室 開發的通用記憶體平行計算框架,用來構建大型的 低延遲的資料分析應用程式。它擴充套件了廣泛使用的mapreduce計算模型。12年正式開源,距今6年歷史。spark執行架構的設計 cluster...