Spark學習01 Spark初識

2021-10-01 12:24:46 字數 905 閱讀 7058

中間結果輸出:基於mapreduce的計算引擎通常會將中間結果輸出到磁碟上,進行儲存和容錯。出於任務管道承接的,考慮,當一些查詢翻譯到mapreduce任務時,往往會產生多個stage,而這些串聯的stage又依賴於底層檔案系統(如hdfs)來儲存每乙個stage的輸出結果

是mapreduce的替代方案,而且相容hdfs、hive,可融入hadoop的生態系統,以彌補mapreduce的不足。

mesos

:spark可以執行在mesos裡面(mesos 類似於yarn的乙個資源排程框架)

standalone

:spark自己可以給自己分配資源(master,worker)

yarn

:spark可以執行在yarn上面

kubernetes

:spark

接收kubernetes

的資源排程

sparkcore:將分布式資料抽象為彈性分布式資料集(rdd),實現了應用任務排程、rpc、序列化和壓縮,並為執行在其上的上層元件提供api。

sparksql:spark sql 是spark來操作結構化資料的程式包,可以讓我使用sql語句的方式來查詢資料,spark支援 多種資料來源,包含hive表,parquest以及json等內容。

sparkstreaming: 是spark提供的實時資料進行流式計算的元件。

mllib:提供常用機器學習演算法的實現庫。

graphx:提供乙個分布式圖計算框架,能高效進行圖計算。

01 Spark架構與執行流程

1.闡述hadoop生態系統中,hdfs,mapreduce,yarn,hbase及spark的相互關係,為什麼要引入yarn和spark。答 hadoop對應於google三駕馬車 hdfs對應於gfs,即分布式檔案系統,mapreduce即平行計算框架,hbase對應於bigtable,即分布式...

01 Spark架構與執行流程

1.闡述hadoop生態系統中,hdfs,mapreduce,yarn,hbase及spark的相互關係,為什麼要引入yarn和spark。hdfs hadoop分布式檔案系統 源自於google的gfs 發表於2003年10月,hdfs是gfs的實現版。hdfs是hadoop體系中資料儲存管理的基...

01 Spark架構與執行流程

1.闡述hadoop生態系統中,hdfs,mapreduce,yarn,hbase及spark的相互關係,為什麼要引入yarn和spark。1 引用yarn是為了解決原始hadoop擴充套件性差,不支援多計算框架而提出的 2 spark的速度比hadoop更快。同樣的事情,hadoop要兩分鐘,而s...