1 大資料概述

2022-09-22 21:30:24 字數 1578 閱讀 2406

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係,以圖呈現並加以文字描述。

答:主要的核心元件有hdfs和mapreduce,其他還包括zookeeper、hbase、hive、pig、mahout、sqoop、flume、ambari等功能元件

hdfs:hdfs具有很好的容錯能力,並且相容廉價的硬體裝置,因此,可以以較低的成本利用現有機器實現大流量和大資料量的讀寫。

mapreduce:一種分布式並行程式設計模型,用於大規模資料集(大於1tb)的並行運算,它將複雜的、執行於大規模集群上的平行計算過程高度抽象到兩個函式:map和reduce。

zookeeper:解決分布式環境下的資料管理問題:統一命名,狀態同步,集群管理,配置同步等。

hbase:針對結構化資料的可伸縮,高可靠,高效能,分布式和面向列的動態模式資料庫。hbase中儲存的資料可以使用mapreduce來處理,它將資料儲存和平行計算完美結合在一起。

hive:hive定於了一種類似sql的查詢語言(hql)將sql轉化為mapreduce任務在hadoop上執行。

pig:定義了一種資料流語言-pig latin,將指令碼轉換為mapreduce任務在hadoop上執行。通常用於離線分析

mahout:建立一些可擴充套件的機器學習領域經典演算法的實現,旨在幫助開發人員更加方便快捷地建立智慧型應用程式。

sqoop:主要用於傳統資料庫和hadoop之間傳輸資料。資料的匯入和匯出本質上是mapreduce程式,充分利用了mr的並行化和容錯性。

flume:cloudera開源的日誌收集系統,具有分布式,高可靠,高容錯,易於定製和擴充套件的特點。

2.對比hadoop與spark的優缺點。

答:spark 把中間資料放到記憶體中,迭代運算效率高。mapreduce 中計算結果需要落地,儲存到磁碟上,這樣勢必會影響整體速度,而 spark 支援 dag 圖的分布式平行計算的程式設計框架,減少了迭代過程中資料的落地,提高了處理效率。其次,spark 容錯性高。spark 引進了彈性分布式資料集 rdd (resilient distributeddataset) 的抽象,它是分布在一組節點中的唯讀物件集合,這些集合是彈性的,如果資料集一部分丟失,則可以根據「血統」(即允許基於資料衍生過程)對它們進行重建。另外在rdd 計算時可以通過 checkpoint 來實現容錯。最後,spark 更加通用。mapreduce 只提供了 map 和 reduce 兩種操作,spark 提供的資料集操作型別有很多,大致分為:transformations 和 actions 兩大類。transformations包括 map、filter、flatmap、sample、groupbykey、reducebykey、union、join、cogroup、mapvalues、sort 等多種操作型別,同時還提供 count, actions 包括 collect、reduce、lookup 和 s**e 等操作。

3.如何實現hadoop與spark的統一部署?

答:由於hadoop mapreduce、hbase、storm和spark等,都可以執行在資源管理框架yarn之上,因此,可以在yarn之上進行統一部署。

1 大資料概述

大資料時代的三種標誌 大資料,雲計算,物聯網。雲計算概念 通過網路以服務的方式為使用者提供非常廉價的it資源。雲計算通俗點講就是把以前需要本地處理器計算的任務交到了遠端伺服器上去做。幾個雲計算的應用例項 第二是網頁遊戲。這其實也是一種雲計算應用,把以前需要在本地安裝的客戶端放到了網頁上,通過基於網頁...

1 大資料概述

1.借鑑網圖 2.兩者的各方面比較 1 spark對標於hadoop中的計算模組mr,但是速度和效率比mr要快得多 2 spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行整合才能運作,它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,它本身並不能儲存資料 3 spa...

1 大資料概述

1 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯能力,並且相容廉價的硬體裝置,因此,可以以較低的成本利用現有機器實現大流量和大資料量的讀寫。ma...