01 Spark架構與執行流程

1. 闡述hadoop生態系統中，hdfs, mapreduce, yarn, hbase及spark的相互關係，為什麼要引入yarn和spark。

（1）引用yarn是為了解決原始hadoop擴充套件性差，不支援多計算框架而提出的

（2）spark的速度比hadoop更快。同樣的事情，hadoop要兩分鐘，而spark可能只需要1秒。

2. spark已打造出結構一體化、功能多樣化的大資料生態系統，請簡述spark生態系統。

spark的設計遵循「乙個軟體棧滿足不同應用場景」的理念，逐漸形成一套完整生態系統，既能夠提供記憶體計算框架，也可以支援sql即席查詢、實時流式計算、機器學習和圖計算等。spark可以部署在資源管理器yarn之上，提供一站式的大資料解決方案。因此，spark所提供的生態系統同時支援批處理、互動式查詢和流資料處理。

3. 用**描述你所理解的spark執行架構，執行流程。

（1）spark執行架構

spark包括cluster manager、worker node、driver和executor。cluster manager可以是spark自帶的資源管理器，也可以是其它資源管理框架。就系統架構而言，spark採用「主從架構」。

在spark中，乙個應用由乙個任務控制節點和若干個作業構成再往下細分是階段和任務。

執行乙個應用時，任務控制節點向集群管理器申請資源，啟動executor 並向其傳送資訊，然後在executor上執行任務。執行結束後返回結果。

（2）spark執行基本流程

為應用構建執行環境，資源管理器為其分配資源，啟動相關的程序。

進行其他的相關準備。

執行後反饋結果，最後寫入資料並釋放所有資源。

4. 軟體平台準備：linux-hadoop。

01 Spark架構與執行流程

01 Spark架構與執行流程

01 Spark架構與執行流程

01 Spark架構與執行流程

相關推薦