分布式計算開源框架Hadoop學習心得3

2021-05-22 23:50:44 字數 1321 閱讀 5582

2

hdfs

結構示意圖

上圖中展現了整個

hdfs

三個重要角色:

namenode

、datanode

和client

。namenode

可以看作是分布式檔案系統中的管理者,主要負責管理檔案系統的命名空間、集群配置資訊和儲存塊的複製等。

namenode

會將檔案系統的

meta-data

儲存在記憶體中,這些資訊主要包括了檔案資訊、每乙個檔案對應的檔案塊的資訊和每乙個檔案塊在

datanode

的資訊等。

datanode

是檔案儲存的基本單元,它將

block

儲存在本地檔案系統中,儲存了

block

的meta-data

,同時周期性地將所有存在的

block

資訊傳送給

namenode

。client

就是需要獲取分布式檔案系統檔案的應用程式。

這裡通過三個操作來說明他們之間的互動關係。

檔案寫入:

client

向namenode

發起檔案寫入的請求。

namenode

根據檔案大小和檔案塊配置情況,返回給

client

它所管理部分

datanode

的資訊。

client

將檔案劃分為多個

block

,根據datanode

的位址資訊,按順序寫入到每乙個

datanode

塊中。

檔案讀取:

client

向namenode

發起檔案讀取的請求。

namenode

返回檔案儲存的

datanode

的資訊。

client

讀取檔案資訊。

檔案block複製:

namenode

發現部分檔案的

block

不符合最小複製數或者部分

datanode失效。

通知datanode

相互複製

block

。datanode

開始直接相互複製。

分布式計算開源框架Hadoop的學習 提綱

author 岑文初email wenchu.cenwc alibaba inc.com 引.2 what is hadoop.2 why is hadoop.6 how to use hadoop tips.7 環境 7 部署考慮 7 實施步驟 7 hadoop command 10 hadoop...

Hadoop分布式框架簡介

原文 分布式系統基本原理 分布式系統被設計成可以儲存和管理大資料量的資訊的系統,並為這些資料提供對外的訪問功能 通過網路 現在已經有許多的分布式系統用各種不同的方法解決了這個問題。nfs,the network file system,是目前最普遍的分布式系統。它也是還在使用的最老的分布式系統之一。...

hadoop系統 分布式計算框架MapReduce

單機程式計算流程 輸入資料 讀取資料 處理資料 寫入資料 輸出資料 hadoop計算流程 input data 輸入資料 inputformat 對資料進行切分,格式化處理 map 將前面切分的資料做map處理 將資料進行分類,輸出 k,v 鍵值對資料 shuffle sort 將相同的資料放在一起...