第一次作業（Spark架構與執行流程）

1. 闡述hadoop生態系統中，hdfs, mapreduce, yarn, hbase及spark的相互關係。

答:hdfs是所有hadoop生態的底層儲存架構，它主要完成了分布式儲存系統的邏輯，凡是需要儲存的都基於其上構建。

yarn是負責集群資源管理的部分，這個資源包括計算資源和儲存資源，因此它也支撐了hdfs和各種計算模組。

map-reduce元件主要完成了map-reduce任務的排程邏輯，它依賴於hdfs作為輸入輸出及中間過程的儲存，因此在hdfs之上，它也依賴yarn為它分配資源，因此也在yarn之上。

hbase基於hdfs儲存，通過獨立的服務管理起來，因此僅在hdfs之上。

hive基於hdfs儲存，通過獨立的服務管理起來，因此僅在hdfs之上。

spark基於hdfs儲存，即可以依賴yarn做資源分配計算資源也可以通過獨立的服務管理，因此在hdfs之上也在yarn之上，從結構上看它和mapreduce一層比較像。

總之，每乙個系統負責了自己擅長的一部分，同時相互依託，形成了整個hadoop生態。

2. spark已打造出結構一體化、功能多樣化的大資料生態系統，請簡述spark生態系統。

答：spark的設計遵循「乙個軟體棧滿足不同應用場景」的理念，逐漸形成一套完整生態系統，既能夠提供記憶體計算框架，也可以支援sql即席查詢、實時流式計算、機器學習和圖計算等。spark可以部署在資源管理器yarn之上，提供一站式的大資料解決方案。因此，spark所提供的生態系統同時支援批處理、互動式查詢和流資料處理。

3. 用**描述你所理解的spark執行架構，執行流程。

答：spark執行架構及流程：

基本概念：

spark執行基本流程：

為應用構建起基本的執行環境，即由driver建立乙個sparkcontext進行資源的申請、任務的分配和監控

資源管理器為executor分配資源，並啟動executor程序。

sparkcontext根據rdd的依賴關係構建dag圖，dag圖提交給dagscheduler解析成stage，然後把乙個個taskset提交給底層排程器taskscheduler處理。

executor向sparkcontext申請task，taskscheduler將task發放給executor執行並提**用程式**。

task在executor上執行把執行結果反饋給taskscheduler，然後反饋給dagscheduler，執行完畢後寫入資料並釋放所有資源。

spark執行架構特點：

（2）spark執行過程與資源管理器無關，只要能夠獲取executor程序並儲存通訊即可。

task採用資料本地性和推測執行等優化機制。

第一次作業 Spark架構與執行流程

1.闡述hadoop生態系統中，hdfs,mapreduce,yarn,hbase及spark的相互關係，為什麼要引入yarn和spark。hdfs是hadoop體系中資料儲存管理的基礎，它是乙個高度容錯的系統，能檢測和應對硬體故障，在低成本的通用硬體上執行。hbase構建在hdfs之上的分布式，面...

第一次作業

1.用較低的成本，開發出滿足客戶需求的軟體，開發的軟體可靠性高，易於維護和移植 2.分為設計階段，開發階段和測試執行階段 1 設計階段分析客戶需求，明確要解決哪些問題，實現哪些功能，以及確定基本方法 2 開發階段 a.概要設計畫出流程圖，進行模組化劃分，建立模組的層次結構以及呼叫關係 b.詳細設...

第一次作業

1.4 非計算機專業程式和軟體有何不同?答程式是通過計算機語言寫出來的具有許多演算法的摸板，是實現軟體功能的底層推手推手的意思可以理解為動力所以，程式是軟體的內在因子，而軟體是乙個或多個程式通過編譯器編譯出來的成品。1.3 查詢資料，解釋什麼是圖靈測試？答指測試者與被測試者乙個人和一台機...

第一次作業（Spark架構與執行流程）

第一次作業 Spark架構與執行流程

第一次作業

第一次作業

相關推薦