1 大資料的概述

2022-09-22 20:24:13 字數 1372 閱讀 3131

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係,以圖呈現並加以文字描述。

生態系統,顧名思義就是很多元件組成的乙個生態鏈,經過多年的發展,hadoop生態系統不斷完善和成熟,目前已經包括了多個子專案,除了核心的hdfs和mapreduce以外,hadoop生態系統還包括要zoopker、hbase、hive、pig、mahout、sqoop、flume、ambari等功能元件。這些元件幾乎覆蓋了目前業界對資料處理的所有場景。

2.對比hadoop與spark的優缺點。

(1)spark對標於hadoop中的計算模組mr,但是速度和效率比mr要快得多;

(2)spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行整合才能運作,它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,它本身並不能儲存資料;

(3)spark可以使用hadoop的hdfs或者其他雲資料平台進行資料儲存,但是一般使用hdfs;

(4)spark可以使用基於hdfs的hbase資料庫,也可以使用hdfs的資料檔案,還可以通過jdbc連線使用mysql資料庫資料;spark可以對資料庫資料進行修改刪除,而hdfs只能對資料進行追加和全表刪除;

(5)spark資料處理速度秒殺hadoop中mr;

(6)spark處理資料的設計模式與mr不一樣,hadoop是從hdfs讀取資料,通過mr將中間結果寫入hdfs;然後再重新從hdfs讀取資料進行mr,再刷寫到hdfs,這個過程涉及多次落盤操作,多次磁碟io,效率並不高;而spark的設計模式是讀取集群中的資料後,在記憶體中儲存和運算,直到全部運算完畢後,再儲存到集群中;

(7)spark是由於hadoop中mr效率低下而產生的高效率快速計算引擎,批處理速度比mr快近10倍,記憶體中的資料分析速度比hadoop快近100倍(源自官網描述);

(8)spark中rdd一般存放在記憶體中,如果記憶體不夠存放資料,會同時使用磁碟儲存資料;通過rdd之間的血緣連線、資料存入記憶體中切斷血緣關係等機制,可以實現災難恢復,當資料丟失時可以恢復資料;這一點與hadoop類似,hadoop基於磁碟讀寫,天生資料具備可恢復性;

(9)spark引進了記憶體集群計算的概念,可在記憶體集群計算中將資料集快取在記憶體中,以縮短訪問延遲,對7的補充;

(10)spark中通過dag圖可以實現良好的容錯。

3.如何實現hadoop與spark的統一部署?

1 大資料概述

大資料時代的三種標誌 大資料,雲計算,物聯網。雲計算概念 通過網路以服務的方式為使用者提供非常廉價的it資源。雲計算通俗點講就是把以前需要本地處理器計算的任務交到了遠端伺服器上去做。幾個雲計算的應用例項 第二是網頁遊戲。這其實也是一種雲計算應用,把以前需要在本地安裝的客戶端放到了網頁上,通過基於網頁...

1 大資料概述

1.借鑑網圖 2.兩者的各方面比較 1 spark對標於hadoop中的計算模組mr,但是速度和效率比mr要快得多 2 spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行整合才能運作,它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,它本身並不能儲存資料 3 spa...

1 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。答 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...