一 Spark中的基本概念

2021-09-30 00:04:57 字數 503 閱讀 8094

(2)driver:表示main()函式,建立sparkcontext。由sparkcontext負責與clustermanager通訊,進行資源的申請,任務的分配和監控等。程式執行完畢後關閉sparkcontext

(5)task:在executor程序中執行任務的工作單元,多個task組成乙個stage

(6)job:包含多個task組成的平行計算,是由action行為觸發的

(7)stage:每個job會被拆分很多組task,作為乙個taskset,其名稱為stage

(8)dagscheduler:根據job構建基於stage的dag,並提交stage給taskscheduler,其劃分stage的依據是rdd之間的依賴關係

(9)taskscheduler:將taskset提交給worker(集群)執行,每個executor執行什麼task就是在此處分配的。

Spark基本概念

下面是spark的乙個日誌計數示例,該程式演示了spark的計算模型 下面是spark執行時涉及的各元件的概況圖 從rdd轉換和儲存角度,使用者程式對rdd通過多個函式進行操作,將rdd進行轉換。block manager管理rdd的物理分割槽,每個block就是節點上對應的乙個資料塊,可以儲存在記...

Spark基本概念

a.driver programs通過sparkcontent物件訪問spark b.sparkcontent代表和乙個集群的鏈結 c.在shell中sparkcontent物件自動建立好了,就是sc 主要分為兩種 python shell和 scala shell 現在主要介紹scala shel...

Spark的基本概念

2018年年末,開始spark學習 block 輸入可能以多個檔案的形式儲存在hdfs上,每個file都包含了很多塊,稱為block。inuptsplit 當spark讀取這些檔案作為輸入時,會根據具體資料格式對應的inputformat進行解析,一般是將若干個block合併成乙個輸入分片,稱為in...