大資料概述

hdfs是hadoop體系中資料儲存管理的基礎。它是 hadoop 技術體系中的核心基石，負責分布式儲存資料，你可以把它理解為乙個分布式的檔案系統。此檔案系統的主要特徵是資料分散儲存，乙個檔案儲存在 hdfs 上時會被分成若干個資料塊，每個資料塊分別儲存在不同的伺服器上。

mapreduce是一種計算模型，用於處理大資料量的計算。其中map對應資料集上的獨立元素進行指定的操作，生成鍵-值對形式中間，reduce則對中間結果中相同的鍵的所有值進行規約，以得到最終結果。

mapreduce的強大在於分布式計算，也就是將計算任務分布在多個伺服器上，因此伺服器數量越多，計算速度就越快。

hbase是乙個針對結構化資料的可伸縮，高可靠，高效能，分布式和面向列的動態模式資料庫。

hbase繼承了列儲存的特性，它非常適合需對資料進行隨機讀、寫操作、比如每秒對pb級資料進行幾千次讀、寫訪問是非常簡單的操作。

其次，hbase構建在hdfs之上，其內部管理的檔案全部儲存在hdfs中。這使它具有高度容錯性和可擴充套件性，並支援hadoop mapreduce程式設計模型。如果你的應用是交易歷史查詢系統、查詢場景簡單，檢索條件較少、每天有千萬行資料更新、那麼hbase將是乙個很好的選擇。其實，行儲存和列儲存只是不同的維度而已，沒有天生的優劣，而大資料時代大部分的查詢模式決定了列式儲存優於行式儲存。

hive 定義了一種類似 sql 的查詢語言(hql)，它可以將 sql 轉化為 mapreduce 任務在 hadoop 上執行。

而nodemanager則負責資源的供給和隔離。當使用者提交乙個應用程式時，會建立乙個用以跟蹤和管理這個程式的am，它負責向rm申請資源，並要求nm啟動指定資源的任務。這就是yarn的基本執行機制。

spark是一種基於記憶體的分布式平行計算框架。spark 提供了記憶體中的分布式計算能力，相比傳統的 mapreduce 大資料分析效率更高、執行速度更快。總結一句話：以記憶體換效率。

sqoop是sql-to-hadoop的縮寫。它主要用於傳統資料庫和hadoop之間傳輸資料。資料的匯入和匯出本質上是 mapreduce 程式，充分利用了 mr 的並行化和容錯性。

解決分布式環境下的資料管理問題：統一命名，狀態同步，集群管理，配置同步等。

hadoop的很多元件依賴於zooleeper，它執行在計算機集群上。

flume 是將資料從產生、傳輸、處理並最終寫入目標路徑的過程抽象為資料流，在具體的資料流中，資料來源支援在 flume 中定製資料傳送方，從而支援收集各種不同協議資料。同時，flume 資料流提供對日誌資料進行簡單處理的能力，如過濾、格式轉換等。此外，flume 還具有能夠將日誌寫往各種資料目標(檔案、hdfs、網路)的能力。在 hadoop 平台，我們主要使用的是通過 flume 將資料從源伺服器寫入 hadoop 的 hdfs 上。

mahout的主要目標是建立一些可擴充套件的機器學習領域經典演算法的實現，旨在幫助開發人員更加方便快捷地建立智慧型應用程式。mahout現在已經包含了聚類，分類，推薦引擎（協同過濾）和頻繁集挖掘等廣泛使用的資料探勘方法

pig是一種資料流語言和執行環境，常用於檢索和分析資料量較大的資料集。

ambari 是乙個大資料基礎運維平台，它實現了 hadoop 生態圈各種元件的自動化部署、服務管理和監控告警，ambari 通過 puppet 實現自動化安裝和配置，通過 ganglia 收集監控度量指標，用 nagios 實現故障報警。

a.hadoop具有安位儲存和處理資料能力的高可靠性。

b.hadoop能夠自動儲存資料的多個副本，並且能夠自動將失敗的任務重新分配，具有高容錯性。

c.hadoop能夠在節點之間進行動態地移動資料，並保證各個節點的動態平衡，處理速度非常快，具有高效性。

a.hadoop不適用於低延遲資料訪問。

b.hadoop不能高效儲存大量小檔案。

c.hadoop不支援多使用者寫入並任意修改檔案。

a.與hadoop的mapreduce相比，spark基於記憶體的運算要快100倍以上，而基於磁碟的運算也要快10倍以上。spark實現了高效的dag執行引擎，可以通過基於記憶體來高效地處理資料流。

b.spark支援j**a，python和scala的api，還支援超過80鐘高階演算法，使使用者可以快速構建不同應用。

c.spark提供了統一的解決方案。spark可以用於批處理，互動式查詢，實時流處理，機器學習和圖計算。

a.spark在穩定性方面不如hadoop，由於**質量問題，spark長時間執行會經常出錯。

b.不能處理大資料，單獨機器處理資料過大，或由於資料出現問題導致中間結構超過ram的大小時，常常出現ram空間不足或無法得知結果。

c.不能支援複雜的sql統計，目前spark支援的sql語法完整過程還不能應用在複雜資料分析中。在可管理性方面，sparkyarn的結合不完善，這就為使用過程中容易出現各種難題。

hadoop生態系統中一些元件實現的功能，是目前無法由spark取代的。由於hadoop mapreduce、hbase、storm和spark等，都可以執行在資源管理框架yarn之上，因此，可以在yarn之上進行統一部署

大資料概述

大資料概述

大資料概述

大資料概述

相關推薦