1 大資料的概述

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係，以圖呈現並加以文字描述。

生態系統，顧名思義就是很多元件組成的乙個生態鏈，經過多年的發展，hadoop生態系統不斷完善和成熟，目前已經包括了多個子專案，除了核心的hdfs和mapreduce以外，hadoop生態系統還包括要zoopker、hbase、hive、pig、mahout、sqoop、flume、ambari等功能元件。這些元件幾乎覆蓋了目前業界對資料處理的所有場景。

2.對比hadoop與spark的優缺點。

（1）spark對標於hadoop中的計算模組mr，但是速度和效率比mr要快得多；

（2）spark沒有提供檔案管理系統，所以，它必須和其他的分布式檔案系統進行整合才能運作，它只是乙個計算分析框架，專門用來對分布式儲存的資料進行計算處理，它本身並不能儲存資料；

（3）spark可以使用hadoop的hdfs或者其他雲資料平台進行資料儲存，但是一般使用hdfs；

（4）spark可以使用基於hdfs的hbase資料庫，也可以使用hdfs的資料檔案，還可以通過jdbc連線使用mysql資料庫資料；spark可以對資料庫資料進行修改刪除，而hdfs只能對資料進行追加和全表刪除；

（5）spark資料處理速度秒殺hadoop中mr；

（6）spark處理資料的設計模式與mr不一樣，hadoop是從hdfs讀取資料，通過mr將中間結果寫入hdfs；然後再重新從hdfs讀取資料進行mr，再刷寫到hdfs，這個過程涉及多次落盤操作，多次磁碟io，效率並不高；而spark的設計模式是讀取集群中的資料後，在記憶體中儲存和運算，直到全部運算完畢後，再儲存到集群中；

（7）spark是由於hadoop中mr效率低下而產生的高效率快速計算引擎，批處理速度比mr快近10倍，記憶體中的資料分析速度比hadoop快近100倍（源自官網描述）；

（8）spark中rdd一般存放在記憶體中，如果記憶體不夠存放資料，會同時使用磁碟儲存資料；通過rdd之間的血緣連線、資料存入記憶體中切斷血緣關係等機制，可以實現災難恢復，當資料丟失時可以恢復資料；這一點與hadoop類似，hadoop基於磁碟讀寫，天生資料具備可恢復性；

（9）spark引進了記憶體集群計算的概念，可在記憶體集群計算中將資料集快取在記憶體中，以縮短訪問延遲，對7的補充；

（10）spark中通過dag圖可以實現良好的容錯。

3.如何實現hadoop與spark的統一部署？

1 大資料的概述

1 大資料概述

1 大資料概述

1 大資料概述

1 大資料的概述

1 大資料概述

1 大資料概述

1 大資料概述

相關推薦