Hadoop的組成架構

1)namenode(nn) : 儲存檔案的元資料,如檔名,檔案目錄結構,檔案屬性(生成時間,副本數,檔案許可權),以及每個檔案的快列表和快所在的datanode等

2)datanode(dn) :在本地檔案系統儲存檔案塊資料,以及塊資料的校驗

3)secondarynamenode(2nn):=每隔一段時間對namenode元資料備份

container

container是yarm中的資源抽象,它封裝了某個節點上的多維度資源,如記憶體 ,cpu,磁碟,網路等

mapreduce將計算過程分為兩個過程:map和reduce

map階段並行處理輸入資料

2)reduce階段對map結果進行彙總

1）sqoop：sqoop是一款開源的工具，主要用於在hadoop、hive與傳統的資料庫（mysql）間進行資料的傳遞，可以將乙個關係型資料庫（例如：mysql，oracle 等）中的資料導進到hadoop的hdfs中，也可以將hdfs的資料導進到關係型資料庫中。

2）flume：flume是乙個高可用的，高可靠的，分布式的海量日誌採集、聚合和傳輸的系統，flume支援在日誌系統中定製各類資料傳送方，用於收集資料；

3）kafka：kafka是一種高吞吐量的分布式發布訂閱訊息系統；

4）spark：spark是當前最流行的開源大資料記憶體計算框架。可以基於hadoop上儲存的大資料進行計算。

5）flink：flink是當前最流行的開源大資料記憶體計算框架。用於實時計算的場景較多。

6）oozie：oozie是乙個管理hdoop作業（job）的工作流程排程管理系統。

7）hbase：hbase是乙個分布式的、面向列的開源資料庫。hbase不同於一般的關聯式資料庫，它是乙個適合於非結構化資料儲存的資料庫。

8）hive：hive是基於hadoop的乙個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為mapreduce任務進行執行。其優點是學習成本低，可以通過類sql語句快速實現簡單的mapreduce統計，不必開發專門的mapreduce應用，十分適合資料倉儲的統計分析。

9）zookeeper：它是乙個針對大型分布式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分布式同步、組服務等。

Hadoop的組成架構

Hadoop的基本組成

HBase 架構組成

Hadoop架構分析

Hadoop的組成架構

Hadoop的基本組成

HBase 架構組成

Hadoop架構分析

相關推薦