Apache Hadoop的重要組成

2021-10-24 15:36:20 字數 1158 閱讀 2475

狹義的hadoop:指的是乙個框架,hadoop是由三部分組成:hdfs:分布式檔案系統–》儲存;

mapreduce:分布式離線計算框架–》計算;yarn:資源排程框架

廣義的hadoop:廣義hadoop是不僅僅包含hadoop框架,除了hadoop框架之外還有一些輔助框

架。flume:日誌資料採集,sqoop:關係型資料庫資料的採集;

hive:深度依賴hadoop框架完成計算(sql),hbase:大資料領域的資料庫(mysql)

sqoop:資料的匯出

廣義hadoop指的是乙個生態圈

大資料的特點

大資料的特點可以用 ibm 曾經提出的 「5v」 來描述,如下

真實確保資料的真實性,才能保證資料分析的正確性

低價值資料價值密度相對較低,或者說是浪裡淘沙卻又彌足珍貴。網際網路發展催生了大量資料,資訊海量,但價值密度較低,如何結合業務邏輯並通過強大的機器演算法來挖掘資料價值,是大資料時代最需要解決的問題,也是乙個有難度的課題

hadoop hdfs:(hadoop distribute file system )乙個高可靠、高吞吐量的分布式檔案系統

比如:100t資料儲存,

「分而治之」

分:拆分–》資料切割,100t資料拆分為10g乙個資料塊由乙個電腦節點儲存這個資料塊。

資料切割、製作副本、分散儲存

圖中涉及到幾個角色

拆解任務、分散處理、彙整結果

mapreduce計算 = map階段 + reduce階段

map階段就是「分」的階段,並行處理輸入資料;

reduce階段就是「合」的階段,對map階段結果進行彙總

yarn中有如下幾個主要角色,同樣,既是角色名、也是程序名,也指代所在計算機節點名稱

Apache Hadoop與CDH HDP的比較

不收費的hadoop版本主要有三個 均是國外廠商 分別是 apache 最原始的版本,所有發行版均基於這個版本進行改進 cloudera版本 cloudera s distribution including apache hadoop,簡稱cdh hortonworks版本 hortonworks...

使用 Apache Hadoop 處理日誌

這篇文章來自developerworks。內容提要 日誌是任何計算系統中乙個必不可少的部分,支援從審計到錯誤管理等功能。隨著日誌的發展和日誌 數量的不斷增加 比如在雲環境中 有必要提供乙個可 擴充套件的系統來高效處理日誌。這篇實踐將 如何在典型 linux 系統上使用 apache hadoop 來...

Apache Hadoop進行版本公升級的操作

3月份,公司最大的集群要從hadoop2.4公升級到hadoop2.8 是乙個大版本跨度的公升級操作,所以前期對hadoop2.8版本進行了很多功能和效能方面的驗證和測試。同時也擬定了幾個公升級和回滾方案。由於集群的離線任務一般在夜間,所以夜間的hdfs壓力很大,rpc延遲很高,導致集群效能下降,最...