spark學習起步(一) 基本概念

2021-08-02 02:15:35 字數 458 閱讀 8273

rdd:彈性分布式資料集

主要特點:

1,資料全集被分割成多個正相交的資料子集,每個資料子集可以被派發到任一計算節點進行處理

2,計算的中間結果會被儲存。同乙個計算結果會被儲存在多,個計算節點

3,如果某乙個資料子集在處理中出現問題,該資料子集的處理會被重新排程進而重新處理。

rdd的操作:

轉換,action

轉換是乙個規劃的過程,並不運算

action才是真正執行提交job。

作業的提交:由action操作觸發

spark接收到job會:

1,rdd依賴分析。rdd依賴形成乙個有向無環圖dag,依賴關係的劃分由dagscheduler負責

2,根據劃分結果乙個job分成多個stage

3,stage確定完,向taskscheduler提交任務集。而taskschedule負責將這些任務分發到集群的計算節點。

Spark基本概念

下面是spark的乙個日誌計數示例,該程式演示了spark的計算模型 下面是spark執行時涉及的各元件的概況圖 從rdd轉換和儲存角度,使用者程式對rdd通過多個函式進行操作,將rdd進行轉換。block manager管理rdd的物理分割槽,每個block就是節點上對應的乙個資料塊,可以儲存在記...

Spark基本概念

a.driver programs通過sparkcontent物件訪問spark b.sparkcontent代表和乙個集群的鏈結 c.在shell中sparkcontent物件自動建立好了,就是sc 主要分為兩種 python shell和 scala shell 現在主要介紹scala shel...

spark學習 基本概念描述

什麼是spark?是apache旗下的一款開源專案,通俗的理解就是乙個分布式的大資料處理框架,有乙個很大優點,一棧式解決方案 spark與hadoop相比有哪些優點?為什麼spark比hadoop快?因為spark基於記憶體進行計算而hadoop基於磁碟進行計算,hadoop把每次計算的結果存回磁碟...