Hadoop的基礎介紹

2021-09-12 12:10:17 字數 1029 閱讀 4214

common 是為hadoop其他元件提供公共庫的,是乙個非常基礎層次

hdfs是負責整個分布式檔案的儲存,利用許多的伺服器進行資料的儲存

yarn專門負責資源的排程

hadoop2.0後,mapreduce變成是專門做離線處理和批處理的

spark是乙個類似hadoop mapreduce的通用並行框架,也是使用reduce函式去做資料處理。但是和mapreduce不同的是:spark是基於記憶體計算,而mapreduce是基於磁碟運算,mapreduce在進行資料處理時都要將資料寫到磁碟去,處理完成後要將資料寫到hdfs上去,所以spark的效能要比mapreduce要高。

hive是整個hadoop生態圈中實現資料倉儲的功能,資料倉儲是專門用於企業決策分析的。

支援sql語言,hive架構在hadoop之上,所以hive會將sql語句轉化為mapreduce作業

pig是乙個輕量級的程式語言

hadoop上的工作流管理器,

提供分布式協調一致性服務,比如:分布式管理鎖,集群管理等

列族資料庫,hbase支援隨機讀寫和實時應用

乙個高可用的,高可靠的,分布式海量日誌採集,聚合和傳輸的系統,所以flume是專門幫你收集日誌的。

用於在hadoop與傳統資料庫之間進行資料傳輸,sqoop可以進行關聯式資料庫到 hdfs, hbase,hive互導。利用sqoop可以將關聯式資料庫中的資料都匯入hadoop平台上去。同理也可以將hadoop上的資料匯入關聯式資料庫中。

參考:

hadoop之hadoop基礎介紹

hadoop是什麼?是乙個分布式基礎架構,主要解決海量資料儲存以及資料分析計算問題。hadoop三大發行版本?apache clourdera hortonworks hadoop優勢?高可靠 高擴充套件 高效 高容錯 hadoop1.x和2.x的區別?hdfs hadoop distributed...

hadoop基礎框架介紹

以下是官方對hadoop的解釋 the apache hadoop project develops open source software for reliable,scalable,distributed computing。hadoop核心模組 hadoop common the commo...

hadoop基礎元件介紹

hadoop 的核心 hdfs hadoop distributed file system 分布式檔案系統 yarn yet another resource negotiator 資源管理排程系統 mapreduce 分布式運算框架 主從結構 主節點,namenode 從節點,有很多個 data...