1 大資料概述

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係，以圖呈現並加以文字描述。

1，hdfs（hadoop分布式檔案系統）

是hadoop體系中資料儲存管理的基礎。他是乙個高度容錯的系統，能檢測和應對硬體故障。

2，mapreduce（分布式計算框架）

mapreduce是一種計算模型，用於處理大資料量的計算。其中map對應資料集上的獨立元素進行指定的操作，生成鍵-值對形式中間，reduce則對中間結果中相同的鍵的所有值進行規約，以得到最終結果。

3， hive（基於hadoop的資料倉儲）

由facebook開源，最初用於解決海量結構化的日誌資料統計問題。hive定於了一種類似sql的查詢語言（hql）將sql轉化為mapreduce任務在hadoop上執行。

4，hbase（分布式列存資料庫）

hbase是乙個針對結構化資料的可伸縮，高可靠，高效能，分布式和面向列的動態模式資料庫。

5，zookeeper（分布式協作服務）

解決分布式環境下的資料管理問題：統一命名，狀態同步，集群管理，配置同步等。

6，sqoop（資料同步工具）

sqoop是sql-to-hadoop的縮寫，主要用於傳統資料庫和hadoop之間傳輸資料。

資料的匯入和匯出本質上是mapreduce程式，充分利用了mr的並行化和容錯性。

7，pig（基於hadoop的資料流系統）

定義了一種資料流語言-pig latin，將指令碼轉換為mapreduce任務在hadoop上執行。

通常用於離線分析。

8，mahout（資料探勘演算法庫）

mahout的主要目標是建立一些可擴充套件的機器學習領域經典演算法的實現，旨在幫助開發人員更加方便快捷地建立智慧型應用程式。

9，flume（日誌收集工具）

cloudera開源的日誌收集系統，具有分布式，高可靠，高容錯，易於定製和擴充套件的特點。

2.對比hadoop與spark的優缺點。

hadoop存在如下一些缺點：

1. 表達能力有限。

2.磁碟io開銷大。

3. 延遲高。

spark主要具有如下優點：

1. 提供了多種資料集操作型別，程式設計模型更靈活；

2. spark提供了記憶體計算，中間結果直接放到記憶體中，帶來了更高的迭代運算效率；

3.spark基於dag的任務排程執行機制，要優於mapreduce的迭代執行機制。

3.如何實現hadoop與spark的統一部署？

由於hadoop mapreduce、hbase、storm和spark等，都可以執行在資源管理框架yarn之上，因此，可以在yarn之上進行統一部署。

1 大資料概述

大資料時代的三種標誌大資料，雲計算，物聯網。雲計算概念通過網路以服務的方式為使用者提供非常廉價的it資源。雲計算通俗點講就是把以前需要本地處理器計算的任務交到了遠端伺服器上去做。幾個雲計算的應用例項第二是網頁遊戲。這其實也是一種雲計算應用，把以前需要在本地安裝的客戶端放到了網頁上，通過基於網頁...

1 大資料概述

1.借鑑網圖 2.兩者的各方面比較 1 spark對標於hadoop中的計算模組mr，但是速度和效率比mr要快得多 2 spark沒有提供檔案管理系統，所以，它必須和其他的分布式檔案系統進行整合才能運作，它只是乙個計算分析框架，專門用來對分布式儲存的資料進行計算處理，它本身並不能儲存資料 3 spa...

1 大資料概述

1.列舉hadoop生態的各個元件及其功能以及各個元件之間的相互關係，以圖呈現並加以文字描述。答主要的核心元件有hdfs和mapreduce，其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...

1 大資料概述

1 大資料概述

1 大資料概述

1 大資料概述

相關推薦