大資料概述

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係，以圖呈現並加以文字描述。

2.對比hadoop與spark的優缺點。

一、實現原理的比較

hadoop和spark都是平行計算，兩者都是用mr模型進行計算

hadoop乙個作業稱為乙個job，job裡面分為map task和reduce task階段，每個task都在自己的程序中執行，當task結束時，程序也會隨之結束；

二、兩者的各方面比較

（1）spark對標於hadoop中的計算模組mr，但是速度和效率比mr要快得多；

（2）spark沒有提供檔案管理系統，所以，它必須和其他的分布式檔案系統進行整合才能運作，它只是乙個計算分析框架，專門用來對分布式儲存的資料進行計算處理，它本身並不能儲存資料；

（3）spark可以使用hadoop的hdfs或者其他雲資料平台進行資料儲存，但是一般使用hdfs；

（4）spark可以使用基於hdfs的hbase資料庫，也可以使用hdfs的資料檔案，還可以通過jdbc連線使用mysql資料庫資料；spark可以對資料庫資料進行修改刪除，而hdfs只能對資料進行追加和全表刪除；

（5）spark資料處理速度秒殺hadoop中mr；

（6）spark處理資料的設計模式與mr不一樣，hadoop是從hdfs讀取資料，通過mr將中間結果寫入hdfs；然後再重新從hdfs讀取資料進行mr，再刷寫到hdfs，這個過程涉及多次落盤操作，多次磁碟io，效率並不高；而spark的設計模式是讀取集群中的資料後，在記憶體中儲存和運算，直到全部運算完畢後，再儲存到集群中；

（7）spark是由於hadoop中mr效率低下而產生的高效率快速計算引擎，批處理速度比mr快近10倍，記憶體中的資料分析速度比hadoop快近100倍（源自官網描述）；

（8）spark中rdd一般存放在記憶體中，如果記憶體不夠存放資料，會同時使用磁碟儲存資料；通過rdd之間的血緣連線、資料存入記憶體中切斷血緣關係等機制，可以實現災難恢復，當資料丟失時可以恢復資料；這一點與hadoop類似，hadoop基於磁碟讀寫，天生資料具備可恢復性；

（9）spark引進了記憶體集群計算的概念，可在記憶體集群計算中將資料集快取在記憶體中，以縮短訪問延遲，對7的補充；

（10）spark中通過dag圖可以實現良好的容錯。

三、spark相對hadoop的優越性

（1）spark基於rdd，資料並不存放在rdd中，只是通過rdd進行轉換，通過裝飾者設計模式，資料之間形成血緣關係和型別轉換；

（2）spark用scala語言編寫，相比j**a語言編寫的hadoop程式更加簡潔；

（3）相比hadoop中對於資料計算只提供了map和reduce兩個操作，spark提供了豐富的運算元，可以通過rdd轉換運算元和rdd行動運算元，實現很多複雜演算法操作，這些在複雜的演算法在hadoop中需要自己編寫，而在spark中直接通過scala語言封裝好了，直接用就ok；

（4）hadoop中對於資料的計算，乙個job只有乙個map和reduce階段，對於複雜的計算，需要使用多次mr，這樣涉及到落盤和磁碟io，效率不高；而在spark中，乙個job可以包含多個rdd的轉換運算元，在排程時可以生成多個stage，實現更複雜的功能；

（5）hadoop中中間結果存放在hdfs中，每次mr都需要刷寫-呼叫，而spark中間結果存放優先存放在記憶體中，記憶體不夠再存放在磁碟中，不放入hdfs，避免了大量的io和刷寫讀取操作；

（6）hadoop適合處理靜態資料，對於迭代式流式資料的處理能力差；spark通過在記憶體中快取處理的資料，提高了處理流式資料和迭代式資料的效能；

3.如何實現hadoop與spark的統一部署？

一方面，由於hadoop生態系統中的一些元件所實現的功能，目前還是無法由spark取代的，比如，storm可以實現毫秒級響應的流計算，但是，spark則無法做到毫秒級響應。另一方面，企業中已經有許多現有的應用，都是基於現有的hadoop元件開發的，完全轉移到spark上需要一定的成本。因此，在許多企業實際應用中，hadoop和spark的統一部署是一種比較現實合理的選擇。

大資料概述

大資料概述

大資料概述

大資料概述

相關推薦