Spark 原理初探

2021-10-19 17:52:42 字數 899 閱讀 9028

driver: 執行main方法並建立sparkcontext的程序

sparkcontext:是spark執行時的上下文環境,其實就是幫助客戶端和clustermanager集群管理器進行互動的,如通訊,資源申請,任務分配,任務監控…

executor:是執行在worker工作節點上的jvm程序 ,負責真正的執行task任務

worker:spark集群的從節點/工作節點,裡面可以啟動1~n個executor程序

rdd:彈性分布式資料集,是分布式記憶體的乙個抽象表示

partition:是rdd中的乙個分割槽dag:有向無環圖,指的是rdd直接的依賴關係和執行流程,可以理解為rdd執行的流程圖

==job:==作業,按照dag流程圖執行就形成了乙個作業job(動態的作業)==dag(靜態的圖)

stage:dag中按照shuffle寬依賴劃分出來的階段

task:任務,同乙個stage階段中的同乙個分割槽上的一系列操作,組成乙個tasktaskset:任務集,同乙個stage中的多個可以並行執行的task組成taskset任務集

Spark原理與機制初探

1.spark 作為spark生態系統的核心,spark主要提供基於記憶體計算的功能,不僅包含hadoop的計算模型mapreduce,還包含很多其他的api,如reducebykey groupbykey foreach join和filter等。spark將資料抽象為rdd,有效地擴充了spar...

編譯原理初探

編譯的第乙個過程是詞法分析,目的就是在連續的字元中識別出乙個乙個的符號,並盡可能的識別出符號的屬性,再詞法分析階段,能夠識別出一些符號的意義,它們包括關鍵字,數字字串,分隔符等,它們不需要其他符號的輔助就能確定本身的意義,如int代表整型 但是有一些符號需要通過前後的其它符號才能確定,更多的資訊需要...

Robotium原理初探

本文 於 測試框架圖 android的instrumentation對某個監控程式進行互動時 1.啟動時將專案配置檔案androidmanifest.xml檔案中的instrumentation標籤中的內容進行初始化 標明了所使用的測試執行類,目標專案包名 2.執行測試時 可用adb命令觸發 將啟動...