Spark RDD原始碼閱讀01

2022-09-12 00:18:31 字數 1372 閱讀 4896

rdd是什麼:resilient distributed dataset

一、rdd的特徵屬性

二、rdd的執行job的流程

rdd:  這些方法是判斷這個job結束的標誌,然後開始執行job。

11、1號表示獲取當前shuffleddep.rdd的依賴的shufflerdd,2號表示對所依賴的shufflerdd劃分stage。由此看出是通過shufflerdd來劃分stage的。

12、13、

14、這個newshufflemapstage 是去得到依賴的stage,從這可看出跟9號圖一樣的方法來獲取父stage。進行了dag圖依賴的得到所有的stage。

15、回到8號圖,執行以下的方法後,

16、從7號圖的listenerbus的post提交的事件。

三、基本方法

cache() 和 persist() 一致。

Spark RDD 原始碼分析

概述 rdd是分布式資料集,代表了不可變 分割槽的元素集合,這些元素可以並行操作。rdd有五個主要屬性 partition列表,和hadoop類似,可切分的資料才能平行計算 計算每個split的function,rdd裡面的compute函式 對於其他rdd的依賴列表,分寬 窄 依賴 兩種,不是所有...

《原始碼閱讀》原始碼閱讀技巧,原始碼閱讀工具

檢視某個類的完整繼承關係 選中類的名稱,然後按f4 quick type hierarchy quick type hierarchy可以顯示出類的繼承結構,包括它的父類和子類 supertype hierarchy supertype hierarchy可以顯示出類的繼承和實現結構,包括它的父類和...

原始碼閱讀 Glide原始碼閱讀之with方法(一)

前言 本篇基於4.8.0版本 原始碼閱讀 glide原始碼閱讀之with方法 一 原始碼閱讀 glide原始碼閱讀之load方法 二 原始碼閱讀 glide原始碼閱讀之into方法 三 大多數情況下,我們使用glide 就一句 但是這一句 裡面蘊含著成噸的 with方法有以下幾個過載方法 publi...