1 大資料概述

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係，以圖呈現並加以文字描述。

答：主要的核心元件有hdfs和mapreduce，其他還包括zookeeper、hbase、hive、pig、mahout、sqoop、flume、ambari等功能元件

hdfs：hdfs具有很好的容錯能力，並且相容廉價的硬體裝置，因此，可以以較低的成本利用現有機器實現大流量和大資料量的讀寫。

mapreduce：一種分布式並行程式設計模型，用於大規模資料集（大於1tb）的並行運算，它將複雜的、執行於大規模集群上的平行計算過程高度抽象到兩個函式：map和reduce。

zookeeper：解決分布式環境下的資料管理問題：統一命名，狀態同步，集群管理，配置同步等。

hbase：針對結構化資料的可伸縮，高可靠，高效能，分布式和面向列的動態模式資料庫。hbase中儲存的資料可以使用mapreduce來處理，它將資料儲存和平行計算完美結合在一起。

hive：hive定於了一種類似sql的查詢語言（hql）將sql轉化為mapreduce任務在hadoop上執行。

pig：定義了一種資料流語言-pig latin，將指令碼轉換為mapreduce任務在hadoop上執行。通常用於離線分析

mahout：建立一些可擴充套件的機器學習領域經典演算法的實現，旨在幫助開發人員更加方便快捷地建立智慧型應用程式。

sqoop：主要用於傳統資料庫和hadoop之間傳輸資料。資料的匯入和匯出本質上是mapreduce程式，充分利用了mr的並行化和容錯性。

flume：cloudera開源的日誌收集系統，具有分布式，高可靠，高容錯，易於定製和擴充套件的特點。

2.對比hadoop與spark的優缺點。

答：spark 把中間資料放到記憶體中，迭代運算效率高。mapreduce 中計算結果需要落地，儲存到磁碟上，這樣勢必會影響整體速度，而 spark 支援 dag 圖的分布式平行計算的程式設計框架，減少了迭代過程中資料的落地，提高了處理效率。其次，spark 容錯性高。spark 引進了彈性分布式資料集 rdd (resilient distributeddataset) 的抽象，它是分布在一組節點中的唯讀物件集合，這些集合是彈性的，如果資料集一部分丟失，則可以根據「血統」（即允許基於資料衍生過程）對它們進行重建。另外在rdd 計算時可以通過 checkpoint 來實現容錯。最後，spark 更加通用。mapreduce 只提供了 map 和 reduce 兩種操作，spark 提供的資料集操作型別有很多，大致分為：transformations 和 actions 兩大類。transformations包括 map、filter、flatmap、sample、groupbykey、reducebykey、union、join、cogroup、mapvalues、sort 等多種操作型別，同時還提供 count, actions 包括 collect、reduce、lookup 和 s**e 等操作。

3.如何實現hadoop與spark的統一部署？

答：由於hadoop mapreduce、hbase、storm和spark等，都可以執行在資源管理框架yarn之上，因此，可以在yarn之上進行統一部署。

1 大資料概述

1 大資料概述

1 大資料概述

1 大資料概述

相關推薦