Spark學習01 Spark初識

中間結果輸出：基於mapreduce的計算引擎通常會將中間結果輸出到磁碟上，進行儲存和容錯。出於任務管道承接的，考慮，當一些查詢翻譯到mapreduce任務時，往往會產生多個stage，而這些串聯的stage又依賴於底層檔案系統（如hdfs）來儲存每乙個stage的輸出結果

是mapreduce的替代方案，而且相容hdfs、hive，可融入hadoop的生態系統，以彌補mapreduce的不足。

mesos

：spark可以執行在mesos裡面（mesos 類似於yarn的乙個資源排程框架）

standalone

：spark自己可以給自己分配資源（master，worker）

yarn

：spark可以執行在yarn上面

kubernetes

：spark

接收kubernetes

的資源排程

sparkcore：將分布式資料抽象為彈性分布式資料集（rdd），實現了應用任務排程、rpc、序列化和壓縮，並為執行在其上的上層元件提供api。

sparksql：spark sql 是spark來操作結構化資料的程式包，可以讓我使用sql語句的方式來查詢資料，spark支援多種資料來源，包含hive表，parquest以及json等內容。

sparkstreaming：是spark提供的實時資料進行流式計算的元件。

mllib：提供常用機器學習演算法的實現庫。

graphx：提供乙個分布式圖計算框架，能高效進行圖計算。