1 大資料概述

2022-09-30 17:33:16 字數 667 閱讀 5747

一.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係,以圖呈現並加以文字描述。

1.hdfs(hadoop分布式檔案系統)是hadoop體系中資料儲存管理者。

2.mapreduce(分布式計算框架)mapreduce是一種計算模型,用於處理大資料量的計算者。

3.hive(基於hadoop的資料倉儲)解決結構化的日誌資料問題。

4.zookeeper(分布式協調者)是分布式環境下各個元件的協調者。

5.sqoop(資料同步工具)sqoop是傳統資料庫和hadoop之間資料轉換與傳輸者。

6.yarn(資源管理器)是將所有的這些框架元件部署到同乙個公共的集群上並共享集群資源者。

二.對比hadoop與spark的優缺點。

1. hadoop 優點:解決了海量資料的儲存與處理。缺點:只提供map和reduce兩個操作,抽象層次低,表現能力欠佳。mapreduce處理的中間結果放在磁碟,有大量的io耗時操作,延遲高,適合離線批處理.

2. spark    優點:提供了乙個集群的分布式記憶體抽象,處理資料速度快。缺點:資料的操作處理基於記憶體,這也導致spark不適合處理超過一定規模的資料

三.如何實現hadoop與spark的統一部署?

可以在yarn之上統一部署,因為hadoop spark等元件都可以執行在資源管理框架yarn之上.

1 大資料概述

大資料時代的三種標誌 大資料,雲計算,物聯網。雲計算概念 通過網路以服務的方式為使用者提供非常廉價的it資源。雲計算通俗點講就是把以前需要本地處理器計算的任務交到了遠端伺服器上去做。幾個雲計算的應用例項 第二是網頁遊戲。這其實也是一種雲計算應用,把以前需要在本地安裝的客戶端放到了網頁上,通過基於網頁...

1 大資料概述

1.借鑑網圖 2.兩者的各方面比較 1 spark對標於hadoop中的計算模組mr,但是速度和效率比mr要快得多 2 spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行整合才能運作,它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,它本身並不能儲存資料 3 spa...

1 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。答 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...