Spark的這些事《二》 幾個概念

2021-07-16 13:41:45 字數 892 閱讀 2544

1、sparkcontext [經常簡稱為 sc]

2、定義乙個 spark 應用程式所需要的三大步驟的邏輯:載入資料集,處理資料,結果展示。

載入資料集,這裡的資料集大概分為兩組:

-一種是不變的,靜態資料集,大多數場景都是從資料庫,檔案系統上面載入進來

-另一種是動態的資料集,一般做 streaming 應用的時候用到,大多數場景是通過 socket 來載入資料,複雜場景可以通過檔案系統,akka actors,kafka,kinesis 和 一些第三方提供的 streaming api [twitter 等] 來作為資料來源載入資料

處理資料,這是重點中的重點,不過不外乎都是從三個方面來完成這裡的資料清理,邏輯運算等:

-自定義的一些複雜處理函式或者第三方包 [下面我們稱為函式集]

-通過 rdd 的 transform,action 和函式集來完成整個處理,計算流程

-通過 rdd 提供的 cache,persist,checkpoint 方法把一些處理流程中的重要處理節點和常用資料快取和備份,以加速處理,計算速度

3、有向無環圖(dga):

有向無環圖,有向即有方向,無環即不可逆,其實更詳細的說是乙個時間上的先來後到,即祖先與子孫的關係,是不可逆的。

4、rdd

關於rdd的一篇**翻譯

spark的這些事系列文章:

spark的這些事《一》——windows下spark開發環境搭建

spark的這些事《二》——幾個概念

spark的這些事《三》——spark常用的transformations 和actions

spark的這些事《四》——sparksql功能測試結果

Spark的這些事 二 幾個概念

1 sparkcontext 經常簡稱為 sc 2 定義乙個 spark 應用程式所需要的三大步驟的邏輯 載入資料集,處理資料,結果展示。載入資料集,這裡的資料集大概分為兩組 一種是不變的,靜態資料集,大多數場景都是從資料庫,檔案系統上面載入進來 另一種是動態的資料集,一般做 streaming 應...

Spark中關於並行度涉及的幾個概念

梳理一下spark中關於並行度涉及的幾個概念,file,block,split,task,partition,rdd以及節點數 executor數 core數目的關係。輸入可能以多個檔案的形式儲存在hdfs上,每個file都包含了很多塊,稱為block。當spark讀取這些檔案作為輸入時,會根據具體...

探索sizeof的這些事

首先sizeof是操作符,不是函式 sizeof求變數或者型別或者表示式結果所佔記憶體的位元組大小 sizeof是操作符,不是函式 sizeof如果運算元是型別一定得加上 sizeof只關心表示式結果型別,並不會計算表示式 例如 int a 0 printf d n sizeof a printf ...