《spark實戰》筆記03 核心模組 RDD

2021-09-24 12:36:57 字數 471 閱讀 5505

spark的核心元件包括rdd、 scheduler、 storage、 shuffle四部分:

 rdd是spark最核心最精髓的部分,spark將所有資料都抽象成rdd。

 scheduler是spark的排程機制,分為dagscheduler和taskscheduler。

 storage模組主要管理快取後的rdd、 shuffle中間結果資料和broadcast資料

 shuffle分為hash方式和sort方式,兩種方式的shuffle中間資料都寫本地盤

• rdd2也是乙個filteredrdd,是從rdd1這個rdd衍生(即計算) 得到的。

• rdd1是rdd2的父節點,即rdd2依賴rdd1。

• filter是rdd的操作,即每個分片需要計算的函式。

Spark實戰練習03 Pair RDD

一 場景 現有某 的 日誌,內容為使用者對 的請求,包含user id ip address datetime 等等 另有乙份檔案中包含使用者的賬戶詳細資訊資料,包含user id creation date first last name等等 二 任務 1 統計每位使用者的請求次數 1 從檔案建立...

核心模組筆記

1 解壓核心原始碼到目錄檔案 tar xjvf linux 2.6.22.6.tar.bz2 c home guoqian test4 1 1 cd home guoqian test4 1 1 linux 2.6.22.6 make distclean 2 配置檔案 cp boot config ...

筆記 《核心剖析》 03 核心程式語言和環境

1 本章主要描述linux 0.12核心中使用的組合語言 目標檔案格式和編譯環境,主要目標是提供閱讀linux 0.12核心源 所需要的組合語言和gnu c語言擴充套件知識。首先,比較詳細地介紹了as86和gnu as匯程式設計序的語法和使用方法 然後,對gnu c語言中的內聯彙編 語句表示式 暫存...