Spark學習筆記

hadoop中mapreduce計算框架是基於磁碟的，每次計算結果都會直接儲存到磁碟，下一次計算又要從磁碟中讀取，因而io消耗大，迭代計算效率很低，且模型單一，不能適應複雜需求。spark是一種基於記憶體的開源計算框架，迭代計算效率非常高。另外，mapreduce的計算是一步一步來的，而spark將整個計算過程繪製成dag(有向無環圖)，優化了計算路徑，這也是spark計算速度較快的原因之一。

bdas是貝克利資料分析棧，如下圖：

spark core和mapreduce一樣是乙個分布式大資料處理框架。包括如下幾個部分：

rdd: 彈性分布式資料集，是最重要的一類資料抽象。

rdd是抽象類，不同操作生成相應的子類，類提供操作rdd的介面

惰性計算，遇到action運算元才真正執行計算

對父rdd可存在依賴關係，分為窄依賴和寬依賴

內部資料唯讀

分割槽，數目盡可能等於集群核心數目

driver 程序：負責初始化和關閉sparkcontext

sparkcontext：計算入口，負責載入配置檔案，準備執行環境

clustermanager：集群資源管理器，包括yarn、standlone和mesos

dagscheduler：面向stage的任務排程器，根據rdd依賴關係將job劃分成stage

taskscheduler：面向task的任務排程器，接收來自dagscheduler的每個stage中的taskset，將其提交給executor

executor程序：工作節點上執行的一組計算程序，每個程序又可以啟動執行緒池

通常將實際執行spark應用程式的節點命名為worker。整個計算流程圖如下圖所示：

spark核心原始碼分析與開發實戰，王家林等

spark原理、機制及應用，符積高等

注：如有不當之處，請指正

Spark學習筆記

spark 學習筆記

spark學習筆記

Spark學習筆記

Spark學習筆記

spark 學習筆記

spark學習筆記

Spark學習筆記

相關推薦