Hadoop生態系統

2021-10-01 12:57:55 字數 777 閱讀 2108

hadoop生態系統

廣義的hadoop

​ hdfs:檔案儲存系統基於硬碟

​ yarn:資源排程框架

​ mapreduce:分布式處理框架

​ hive:資料倉儲

​ rconnections:資料分析

​ mahout:機器學習庫

​ pig:指令碼語言,跟hive類似

​ oozie:工作流引擎,管理作業執行順序

​ zookeeper:使用者無感知,主節點掛掉選擇從節點作為主

​ flume:日誌收集框架

​ sqoop:資料交換框架,例如:關係型資料庫與hdfs之間的資料交換

​ hbase:海量資料查詢,相當於分布式檔案系統中的資料庫

​ spark:分布式計算框架基於記憶體

​ 1.spark core

​ 2.spark sql

​ 3.spark streaming 準實時 不算是乙個標準的流式就算

​ 4.spark ml spark mlib

​ kafka:訊息佇列

​ storm:分布式的流式計算框架python操作storm

​ flink:分布式的流式計算框架

hdfs讀寫流程&高可用

hdfs如何實現高可用(ha)

磁碟故障容錯

datanode故障容錯

namenode故障容錯

Hadoop生態系統

摘要 介紹hadoop生態系統,從hadoop生態系統有什麼成員,成員能做什麼和hadoop生態系統能夠提供大資料問題解決方案兩方面來認識。hadoop生態圖,通俗地說,就是hadoop核心模組和衍生的子專案。一幅hadoop生態圖,讓我想到了兩個問題。問題一 hadoop生態系統包括哪些成員?每個...

Hadoop 生態系統

hadoop是乙個分布式儲存和計算平台。主要解決海量資料的儲存與分析計算問題 1 高可靠性 hadoop底層維護多個資料副本,所以即使hadoop某個計算元素或儲存出現故障,也不會導致資料的丟失。2 高擴充套件性 在集群間分配任務資料,可方便的擴充套件數以乾計的節點。3 高效性 在mapreduce...

Hadoop生態系統

hadoop生態系統如下圖所示 hdfs hadoop distributed file system 是分布式檔案系統,是針對谷歌開發的分布式檔案系統gfs google file system 的開源實現,是hadoop兩大核心組成部分之一。hdfs有namenode和datanode兩部分,n...