一大資料概述

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係，以圖呈現並加以文字描述。

hdfs:分布式儲存系統。

yarn:資源排程。

mapreduce:任務計算。

hive:讓hadoop集群擁有關係型資料庫的sql體驗，本質是hadoop的乙個外掛程式，如果有統計，加減乘除等計算任務就會將sql語句轉化為mapreduce。

hbase:讓hdfs擁有海量儲存功能，並且在大資料量的情況下實現秒級查詢，本質還是建立在hdfs上。

zookeeper:從定義上來說，zk是乙個監控以及通知分布式系統。類似於乙個小型的hadoop，即小型分布式系統。

spark:一種計算框架，不用安裝hadoop，也可以獨立使用，相比於mapreduce使用記憶體，計算快。

sqoop:資料庫etl工具，將hive和hbase與msql相互轉資料。

flume:收集日誌。

2.對比hadoop與spark的優缺點。

spark 是在借鑑了 mapreduce 之上發展而來的，繼承了其分布式平行計算的優點並改進了 mapreduce 明顯的缺陷，（spark與hadoop 的差異）具體如下：

(1)spark 把中間資料放到記憶體中，迭代運算效率高。mapreduce 中計算結果需要落地，儲存到磁碟上，這樣勢必會影響整體速度，而 spark 支援 dag 圖的分布式平行計算的程式設計框架，減少了迭代過程中資料的落地，提高了處理效率。

(2)spark 容錯性高。spark 引進了彈性分布式資料集 rdd (resilient distributeddataset) 的抽象，它是分布在一組節點中的唯讀物件集合，這些集合是彈性的，如果資料集一部分丟失，則可以根據「血統」（即允許基於資料衍生過程）對它們進行重建。另外在rdd 計算時可以通過 checkpoint 來實現容錯。

(3)spark 更加通用。mapreduce 只提供了 map 和 reduce 兩種操作，spark 提供的資料集操作型別有很多，大致分為：transformations 和 actions 兩大類。transformations包括 map、filter、flatmap、sample、groupbykey、reducebykey、union、join、cogroup、mapvalues、sort 等多種操作型別，同時還提供 count, actions 包括 collect、reduce、lookup 和 s**e 等操作。

spark是mapreduce的替代方案，而且相容hdfs、hive，可融入hadoop 的生態系統，以彌補mapreduce的不足。

3.如何實現hadoop與spark的統一部署？

由於hadoop、mapreduce、hbase、storm和spark等，都可以執行在資源管理框架yarn之上，因此，可以在yarn之上進行統一部署。

一大資料概述

一大資料概述

作業一大資料概述與學習資源

作業一大資料概述與學習資源

一 大資料概述

一 大資料概述

作業一 大資料概述與學習資源

作業一 大資料概述與學習資源

相關推薦

一大資料概述

一大資料概述

作業一大資料概述與學習資源

作業一大資料概述與學習資源