一 大資料概述

2022-09-23 10:30:12 字數 1425 閱讀 9478

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係,以圖呈現並加以文字描述。

hdfs:分布式儲存系統。

yarn:資源排程。

mapreduce:任務計算。

hive:讓hadoop集群擁有關係型資料庫的sql體驗,本質是hadoop的乙個外掛程式,如果有統計,加減乘除等計算任務就會將sql語句轉化為mapreduce。

hbase:讓hdfs擁有海量儲存功能,並且在大資料量的情況下實現秒級查詢,本質還是建立在hdfs上。

zookeeper:從定義上來說,zk是乙個監控以及通知分布式系統。類似於乙個小型的hadoop,即小型分布式系統。

spark:一種計算框架,不用安裝hadoop,也可以獨立使用,相比於mapreduce使用記憶體,計算快。

sqoop:資料庫etl工具,將hive和hbase與msql相互轉資料。

flume:收集日誌。

2.對比hadoop與spark的優缺點。

spark 是在借鑑了 mapreduce 之上發展而來的,繼承了其分布式平行計算的優點並改進了 mapreduce 明顯的缺陷,(spark與hadoop 的差異)具體如下:

(1)spark 把中間資料放到記憶體中,迭代運算效率高。mapreduce 中計算結果需要落地,儲存到磁碟上,這樣勢必會影響整體速度,而 spark 支援 dag 圖的分布式平行計算的程式設計框架,減少了迭代過程中資料的落地,提高了處理效率。

(2)spark 容錯性高。spark 引進了彈性分布式資料集 rdd (resilient distributeddataset) 的抽象,它是分布在一組節點中的唯讀物件集合,這些集合是彈性的,如果資料集一部分丟失,則可以根據「血統」(即允許基於資料衍生過程)對它們進行重建。另外在rdd 計算時可以通過 checkpoint 來實現容錯。

(3)spark 更加通用。mapreduce 只提供了 map 和 reduce 兩種操作,spark 提供的資料集操作型別有很多,大致分為:transformations 和 actions 兩大類。transformations包括 map、filter、flatmap、sample、groupbykey、reducebykey、union、join、cogroup、mapvalues、sort 等多種操作型別,同時還提供 count, actions 包括 collect、reduce、lookup 和 s**e 等操作。

spark是mapreduce的替代方案,而且相容hdfs、hive,可融入hadoop 的生態系統,以彌補mapreduce的不足。

3.如何實現hadoop與spark的統一部署?

由於hadoop、mapreduce、hbase、storm和spark等,都可以執行在資源管理框架yarn之上,因此,可以在yarn之上進行統一部署。

一 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。答 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...

作業一 大資料概述與學習資源

2 選擇乙個你感興趣的領域應用資料思維進行分析決策的案例。遊戲上使用大資料的地方很多。聚類就是一種方法。聚類是對所有的玩家進行的分類,比常規的維度要多,要全方位的對玩家進行分析,聚類相當於將n個散亂的點通過機器學習的演算法聚為一類,這一類的點之間會是最相似的。我們可以通過大資料分析流失玩家和潛在的付...

作業一 大資料概述與學習資源

1.資料型別 主要是聊天記錄。微博 造成不同的比例 3者都屬於社交資料。2.選擇乙個你感興趣的領域應用資料思維進行分析決策的案例。遊戲上使用大資料的地方很多。聚類就是一種方法。聚類是對所有的玩家進行的分類,比常規的維度要多,要全方位的對玩家進行分析,聚類相當於將n個散亂的點通過機器學習的演算法聚為一...