Hadoop分布式系統架構詳解

2021-08-20 00:24:46 字數 615 閱讀 3101

主要思想是 「分組合併」 思想。

分組:比如 有乙個大型資料,那麼他就會將這個資料按照演算法分成多份,每份儲存在 從屬主機上,並且在從屬主機上進行計算,主節點主要負責hadoop兩個關鍵功能模組hdfs、map reduce的監督。

合併:將每個機器上的計算結果合併起來 再在一台機器上計算,得到最終結果。這

就是mapreduce 演算法。

hadoop主要的任務部署分為3個部分,分別是:client機器,主節點和從節點。主節點主要負責hadoop兩個關鍵功能模組hdfs、map reduce的監督。當job tracker使用map reduce進行監控和排程資料的並行處理時,名稱節點則負責hdfs監視和排程。從節點負責了機器執行的絕大部分,擔當所有資料儲存和指令計算的苦差。每個從節點既扮演者資料節點的角色又衝當與他們主節點通訊的守護程序。守護程序隸屬於job tracker,資料節點在歸屬於名稱節點。

1、hadoop的整體框架 

hadoop由hdfs、mapreduce、hbase、hive和zookeeper等成員組成,其中最基礎最重要元素為底層用於儲存集群中所有儲存節點檔案的檔案系統hdfs(hadoop distributed file system)來執行mapreduce程式的mapreduce引擎。

hadoop分布式系統(上)

hdfs,the hadoop distributed file system,是乙個分布式系統,它被設計用來儲存大資料量的資訊 通常是tb或pb 並提供對資料進行高吞吐量訪問的效能。檔案被儲存在多台機器中,確保系統的抗失效效能以及並行應用程式的高效。這篇文章主要介紹 hdfs的設計意圖 結構,並告...

python分布式架構 分布式架構

1.分布式架構 採用centos mongodb windows2012 python redis進行分布式架構搭建,mongodb的框架最核心的設計就是 mongodb和mapreduce。mongodb為海量的資料提供了儲存,則mapreduce為海量的資料提供了計算,windows2012作為...

hadoop入門 偽分布式詳解

1.首先開啟ssh ssh localhost 2.若是初次啟動hadoop,首先需要格式化namenode,命令如下 bin hadoop namenode format 3.啟動hadoop守護程序,包括namenode,secondarynamenode,datanode,jobtracker...