day22 RDD執行原理

2022-07-05 20:24:10 字數 717 閱讀 2414

從計算的角度來講,資料處理過程中需要計算資源(記憶體 & cpu)和計算模型(邏輯)。執行時,需要將計算資源和計算模型進行協調和整合。

spark 框架在執行時,先申請資源,然後將應用程式的資料處理邏輯分解成乙個乙個的計算任務。然後將任務發到已經分配資源的計算節點上, 按照指定的計算模型進行資料計算。最後得到計算結果。

rdd 是 spark 框架中用於資料處理的核心模型,接下來我們看看,在 yarn 環境中,rdd的工作原理:

啟動 yarn 集群環境

spark 通過申請資源建立排程節點和計算節點

spark 框架根據需求將計算邏輯根據分割槽劃分成不同的任務

排程節點將任務根據計算節點狀態傳送到對應的計算節點進行計算

從以上流程可以看出 rdd 在整個流程中主要用於將邏輯進行封裝,並生成 task 傳送給executor 節點執行計算。

Spark開發 spark執行原理和RDD

核心 1 spark執行原理 2 rdd 1 spark執行原理 spark應用程式基本概念spark基本工作流程spark 應用程式程式設計模型 1 driver program sparkcontext 1 1匯入spark的類和隱式轉換 1 2構建spark應用程式的執行環境 sparkcon...

一 RDD的設計與執行原理

1 mapreduce 將中間結果寫入到hdfs中 目前mapreduce框架都是把中間結果寫入到hdfs中,帶來了大量的資料複製 磁碟io和序列化開銷。2 rdd 資料操作管道化 rdd將具體的應用邏輯表達為一系列轉換處理,不同rdd之間的轉換操作形成依賴關係,可以實現資料管道化,避免中間儲存的結...

1 3RDD的設計與執行原理

rdd讀入外部資料來源 或者記憶體中的集合 進行建立 rdd經過一系列的 轉換 操作,每一次都會產生不同的rdd,供給下乙個 轉換 使用 最後乙個rdd經 行動 操作進行處理,並輸出到外部資料來源 或者變成scala集合或標量 例1 乙個spark的 hello world 程式 這裡以乙個 hel...