Spark架構與執行流程

1. 闡述hadoop生態系統中，hdfs, mapreduce, yarn, hbase及spark的相互關係。

2. spark已打造出結構一體化、功能多樣化的大資料生態系統，請簡述spark生態系統。

3. 用**描述你所理解的spark執行架構，執行流程。

4. 軟體平台準備：linux-hadoop。

1.hadoop是乙個能夠對大量資料進行分布式處理的軟體框架。具有可靠、高效、可伸縮的特點。

hadoop的核心是hdfs和mapreduce，hadoop2.0還包括yarn。

（1）hdfs集群：負責海量資料的儲存。

（2）yarn集群：負責海量資料運算時的資源排程。

（3）mapreduce：它其實是乙個應用程式開發包。

從開源角度看，yarn的提出，從一定程度上弱化了多計算框架的優劣之爭。yarn是在hadoop mapreduce基礎上演化而來的，在mapreduce時代，很多人批評mapreduce不適合迭代計算和流失計算，於是出現了spark和storm等計算框架，而這些系統的開發者則在自己的**上或者**裡與mapreduce對比，鼓吹自己的系統多麼先進高效，而出現了yarn之後，則形勢變得明朗：mapreduce只是執行在yarn之上的一類應用程式抽象，spark和storm本質上也是，他們只是針對不同型別的應用開發的，沒有優劣之別，各有所長，合併共處，而且，今後所有計算框架的開發，不出意外的話，也應是在yarn之上。這樣，乙個以yarn為底層資源管理平台，多種計算框架執行於其上的生態系統誕生了。

hdfs

hdfs（hadoop分布式檔案系統）源自於google的gfs**，發表於2023年10月，hdfs是gfs的實現版。hdfs是hadoop體系中資料儲存管理的基礎，它是乙個高度容錯的系統，能檢測和應對硬體故障，在低成本的通用硬體上執行。hdfs簡化了檔案的一次性模型，通過流式資料訪問，提供高吞吐量應用程式資料訪問功能，適用帶有資料集的應用程式。hdfs提供一次寫入多次讀取的機制，資料以塊的形式，同時分布儲存在不同的物理機器上。

hdfs預設的最基本的儲存單位是64mb的資料塊，和普通檔案系統一樣，hdfs中的檔案被分成64mb一塊的資料塊儲存。它的開發是基於流資料模式訪問和處理超大檔案的需求。

mapreduce

mapduce（分布式計算框架）源自於google的mapreduce**，發表於2023年12月，hadoop mapreduce是google reduce 轉殖版。mapreduce是一種分布式計算模型，用以進行海量資料的計算。它遮蔽了分布式計算框架細節，將計算抽象成map 和reduce兩部分，其中map對資料集上的獨立元素進行指定的操作，生成鍵-值對形式中間結果。reduce則對中間結果中相同「鍵」的所有「值」進行規約，以得到最終結果。mapreduce非常適合在大量計算機組成的分布式並行環境裡進行資料處理。

hbase

hbase（分布式列存資料庫）源自google的bigtable**，發表於2023年11月，hbase是google table的實現。hbase是乙個建立在hdfs之上，面向結構化資料的可伸縮、高可靠、高效能、分布式和面向列的動態模式資料庫。hbase採用了bigtable的資料模型，即增強的稀疏排序對映表（key/value）,其中，鍵由行關鍵字、列關鍵字和時間戳構成。hbase提供了對大規模

yarn

yarn（分布式資源管理器）是下一代mapreduce，即mrv2，是在第一代mapreduce基礎上演變而來的，主要是為了解決原始hadoop擴充套件性差，不支援多計算框架而提出的。yarn是下一代hadoop計算平台，是乙個通用的執行時框架，使用者可以編寫自己的極端框架，在該執行環境中執行。

spark

spark（記憶體dag計算模型）是乙個apche專案，被標榜為「快如閃電的集群計算」，它擁有乙個繁榮的開源社群，並且是目前最活躍的apache專案。最早spark是uc berkeley amp lab所開源的類hadoop mapreduce的通用計算框架，spark提供了乙個更快、更通用的資料處理平台。和hadoop相比，spark平台可以讓你的程式在記憶體中執行時速度提公升100倍，或者在磁碟上執行時速度提公升10倍。

目前spark是乙個非常流行的記憶體計算（或者迭代式計算，dag計算）框架。

2.答：spark的設計遵循「乙個軟體棧滿足不同應用場景」的理念，逐漸形成一套完整生態系統，既能夠提供記憶體計算框架，也可以支援sql即席查詢、實時流式計算、機器學習和圖計算等。spark可以部署在資源管理器yarn之上，提供一站式的大資料解決方案。因此，spark所提供的生態系統同時支援批處理、互動式查詢和流資料處理。

Spark架構與執行流程

01 Spark架構與執行流程

01 Spark架構與執行流程

01 Spark架構與執行流程

Spark架構與執行流程

01 Spark架構與執行流程

01 Spark架構與執行流程

01 Spark架構與執行流程

相關推薦