spark種的名詞解釋

driver功能的**和分布在集群中多個節點上執行的

executor**。

2.driver

使用driver這乙個概念的分布式框架很多，比如hive等，spark中的driver即執行上

有sparkcontext負責與clustermanager通訊，進行資源申請、任務的分配和監控等，當executor部分執行完畢後，driver同時負責將sparkcontext關閉

，通常用sparkcontext代表driver。

3.executor

worker節點上的乙個程序，

負責將task包裝成taskrunner,並從執行緒池中抽取乙個空閒執行緒執行task，這個每乙個coarsegrainedexecutor backend能並行執行task的數量取決與分配給它的cpu個數。

4.cluter manager：指的是在集群上獲取資源的外部服務。目前有三種型別。

[1].standalon : spark原生的資源管理，由master負責資源的分配，可以在ec2上執行

[2].apache mesos:與hadoop mr相容性良好的一種資源排程框架。

[3].hadoop yarn: 主要是指yarn中的resourcemanager。

5.worker

6.task

7.job

8.stage

每個job會被拆分成多組task，作為乙個taskset，其名稱為stage，stage的劃分和排程是有dagscheduler來負責的，stage有非最終的stage（shuffle map stage）和最終的stage（result stage）兩種，stage的邊界就是發生shuffle的地方。

9.rdd

spark的基本計算單元，可以通過一系列運算元進行計算（主要由transformation和action操作），同時rdd是spark最核心的東東，他表示已被分割槽、被序列化的、不可變的、有容錯的並且能夠被並行操作的資料集合。其儲存級別可以是記憶體，也可以是磁碟，可通過spark.storage.storagerlevel屬性來配置。

10.共享變數

廣播變數；另一種是只支援

加法操作，可以實現求和的累加變數。

11.寬依賴

或稱為為shuffledependency，與hadoop mr的shuffle的資料依賴相似，寬依賴需要計算所有父rdd對應分割槽的資料，然後在節點之間進行shuffle。

12.窄依賴

或稱為narrowdependency，某個具體的rdd，其分割槽partition a最多子rdd中乙個分割槽partition b依賴，此種情況只有map任務，是不需要傳送shuffle過程的，窄依賴又分為1：1和n：1兩種。

13.dagscheduler

根據job構建基於stage的dag，並提交stage給taskscheduler。其劃分stage的依據是rdd之間的依賴的關係。

14.tasksedulter

將taskset提交給worker執行，每個executor執行什麼task就是在此處分配的。

---**於網際網路

spark種的名詞解釋

Spark 名詞解釋

BE 名詞解釋

模組耦合名詞解釋名詞解釋簡答

spark種的名詞解釋

Spark 名詞解釋

BE 名詞解釋

模組耦合名詞解釋 名詞解釋 簡答

相關推薦

模組耦合名詞解釋名詞解釋簡答