1 大資料概述

1、

主要的核心元件有hdfs和mapreduce，其他還包括zookeeper、hbase、hive、pig、mahout、sqoop、flume、ambari等功能元件

hdfs：hdfs具有很好的容錯能力，並且相容廉價的硬體裝置，因此，可以以較低的成本利用現有機器實現大流量和大資料量的讀寫。

mapreduce：一種分布式並行程式設計模型，用於大規模資料集（大於1tb）的並行運算，它將複雜的、執行於大規模集群上的平行計算過程高度抽象到兩個函式：map和reduce。

zookeeper：解決分布式環境下的資料管理問題：統一命名，狀態同步，集群管理，配置同步等。

hbase：針對結構化資料的可伸縮，高可靠，高效能，分布式和面向列的動態模式資料庫。hbase中儲存的資料可以使用mapreduce來處理，它將資料儲存和平行計算完美結合在一起。

hive：hive定於了一種類似sql的查詢語言（hql）將sql轉化為mapreduce任務在hadoop上執行。

pig：定義了一種資料流語言-pig latin，將指令碼轉換為mapreduce任務在hadoop上執行。通常用於離線分析

sqoop：主要用於傳統資料庫和hadoop之間傳輸資料。資料的匯入和匯出本質上是mapreduce程式，充分利用了mr的並行化和容錯性。

flume：cloudera開源的日誌收集系統，具有分布式，高可靠，高容錯，易於定製和擴充套件的特點。

2、（1）spark引進了記憶體集群計算的概念，將資料集快取在記憶體中，縮短訪問時間

（2）spark批處理速度比mapreduce快近10倍，記憶體中的資料分析速度比hadoop快近100倍

（3）spark通過dag圖可以實現良好的容錯

（4）spark可以使用hadoop的hdfs或者其他雲資料平台進行資料儲存，但是一般使用hdfs

（5）park處理資料的設計模式與mapreduce不一樣，hadoop是從hdfs讀取資料，通過mapreduce將中間結果寫入hdfs；然後再重新從hdfs讀取資料進行mapreduce，再刷寫到hdfs，這個過程涉及多次落盤操作，多次磁碟io，效率並不高；而spark的設計模式是讀取集群中的資料後，在記憶體中儲存和運算，直到全部運算完畢後，再儲存到集群中

（6）spark可以使用基於hdfs的hbase資料庫，也可以使用hdfs的資料檔案，還可以通過jdbc連線使用mysql資料庫資料；spark可以對資料庫資料進行修改刪除，而hdfs只能對資料進行追加和全表刪除

3、由於hadoop生態系統中的一些元件所實現的功能，目前還是無法由spark取代的，比如，storm可以實現毫秒級響應的流計算，但是，spark則無法做到毫秒級響應。另一方面，企業中已經有許多現有的應用，都是基於現有的hadoop元件開發的，完全轉移到spark上需要一定的成本。因此，在許多企業實際應用中，hadoop和spark的統一部署是一種比較現實合理的選擇。

由於hadoop mapreduce、hbase、storm和spark等，都可以執行在資源管理框架yarn之上，因此，可以在yarn之上進行統一部署。這些不同的計算框架統一執行在yarn中，可以帶來如下好處：

1、計算資源按需伸縮；2、不用負載應用混搭，集群利用率高；3、共享底層儲存，避免資料跨集群遷移。

1 大資料概述

1 大資料概述

1 大資料概述

1 大資料概述

相關推薦