hadoop三大核心元件概念及原理

2022-06-24 02:45:08 字數 1176 閱讀 3168

hadoop由3個核心元件構成:

(1)hdfs集群:負責海量資料的儲存,集群中的角色主要有 namenode / datanode/secondarynamenode。

(2)yarn集群:負責海量資料運算時的資源排程,集群中的角色主要有 resourcemanager /nodemanager

(3)mapreduce:它其實是乙個應用程式開發包。

hdfs(分布式檔案系統):

namenode主要是用來儲存hdfs的元資料資訊,比如命名空間資訊,塊資訊

namenode如何儲存元資料:

fsimage - 它是在namenode啟動時對整個檔案系統的快照

edit logs - 它是在namenode啟動後,對檔案系統的改動序列

namenode正常執行時的元資料的改動會寫進edit logs檔案中,當服務重啟時,namenode從fsimage讀取並與edit logs合併,變成最新的fsimage並正常執行,之後再生出新的edit logs繼續把改動寫進。

secondary namenode:合併namenode的edit logs到fsimage檔案。

snn作用:只有在namenode重啟時,edit logs才會合併到fsimage檔案中,從而得到乙個檔案系統的最新快照,由於edit logs時間長後會有很大,因此   namenode重啟的時間往往很久。因此secondary namenode的出現能及時把namenode的edit logs到fsimage檔案,獲取最新的fsimage,因此,namenode重啟是不在需要大量合併edit logs,減少了重啟時間。

合併流程如圖:

datanode:用來儲存資料。

yarn(集群資源管理器):

mapreduce:原理附圖如下:

docker 三大核心概念

映象 容器 倉庫是docker的三大核心概念。docker映象類似於虛擬機器映象,你可以將其理解為乙個唯讀模板。docker容器類似於乙個輕量級的沙箱,docker利用容器來執行和隔離應用。容器是從映象建立的應用執行例項。可以將其啟動 開始 停止 刪除,而這些容器都是彼此相互隔離的 互不可見的。映象...

hadoop元件概念理解

一 hadoop 二 hive 三 sqoop 1.來由和作用 sqoop由一些封裝好的mr程式的jar包構成,後演變成框架,但sqoop只有map任務沒有reduce任務。用於 hdfs hive hbase 和關係型資料庫rdbms之間資料的匯入匯出。2.匯入到hdfs過程 2.1 gather...

Kafka核心概念及核心機制

broker 程序 producer 生產者 flume consumer 消費者 ss spark streaming,topic 主題 分割槽 副本數 資料夾 partition 分割槽乙個分割槽可以有多個副本 重點解析 1.乙個組內,共享乙個公共的groupid 2.組內的所有消費者協調一起,...