1 大資料概述

2022-09-23 10:30:15 字數 934 閱讀 2824

1.大資料概述

一.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係,以圖呈現並加以文字描述。

1、hdfs(分布式檔案系統)

提供分布式資料儲存、集中管理功能,為hdaoop生態提供資料基礎

2、mapreduce(分布式計算框架)

輸入分片(input split)->map階段->shuffle階段->reduce階段

大規模並行資料處理的資料模型,使程式執行在分布式系統

3、yarn(分布式資源管理器)

yarn作為統一資源管理器,並在此基礎上管理協調其他不同的各類框架,靈活分配合理呼叫

可以乙個集群上的不同應用負載混搭,有效提高了集群的利用率。

二、對比hadoop與spark的優缺點。

表達能力

mapreduce使用map和reduce,難以描述複雜處理過程而spark除map和reduce外,還支援rdd/dataframe/dataset等多種資料模型操作,程式設計模型更加靈活。

磁碟i/o效率

mapreduce直接對磁碟進行i/o,而spark中間結果儲存在記憶體中效率更高

任務延遲

mapreduce多次i/o增加上下文切換耗能,spark基於dag任務排程執行機制,不涉及磁碟io延遲,迭代運算更快。

三.如何實現hadoop與spark的統一部署?

結合yarn資源管理器基礎,進行多種框架混合使用,可以用spark框架替換mapreduce框架提高計算效率和計算的表達能力,並調整hadoop中其他框架與spark發生資源爭奪的情況,降低資源搶占發生的概率。

1 大資料概述

大資料時代的三種標誌 大資料,雲計算,物聯網。雲計算概念 通過網路以服務的方式為使用者提供非常廉價的it資源。雲計算通俗點講就是把以前需要本地處理器計算的任務交到了遠端伺服器上去做。幾個雲計算的應用例項 第二是網頁遊戲。這其實也是一種雲計算應用,把以前需要在本地安裝的客戶端放到了網頁上,通過基於網頁...

1 大資料概述

1.借鑑網圖 2.兩者的各方面比較 1 spark對標於hadoop中的計算模組mr,但是速度和效率比mr要快得多 2 spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行整合才能運作,它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,它本身並不能儲存資料 3 spa...

1 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。答 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...