hadoop筆記一 簡介 HDFS的基礎

2021-09-27 02:38:20 字數 1410 閱讀 3101

一、簡述:可靠性、可擴充套件、分布式計算框架

主要元件:hadoop common、hadoop distributed file system (hdfs™)、hadoop yarn、hadoop mapreduce

其他元件:hadoop ozone、hadoop submarine:(a machine learning engine for hadoop)

可整合技術:

ambari™: aweb-basedtool forprovisioning, managing, and monitoringapache hadoop clusters which includes support for hadoop hdfs, hadoop mapreduce, hive, hcatalog, hbase, zookeeper, oozie, pig and sqoop.

hbase™:a scalable, distributed database that supportsstructured datamahout™: a scalable machine learning and data mining library.目前沒接觸到,以後涉及到補說明。

spark™:a fast and generalcompute enginehdfs:

伺服器的種類:塔式《機架(企業大部分使用該種)《刀片:

以下為機架伺服器:

block的放置策略:

 第乙個副本:放置在上傳檔案的dn;如果是集群外提交,則隨機挑選一塊磁碟不太滿 的cpu不太忙的節點

 第二個副本放置於第乙個副本不同的機架上,

 第三個副本與第二個副本相同的機架節點。

 其他副本隨機放置。

hdfs的寫流程:

 hdfs client 找nn提交上傳檔案請求,nn觸發副本放置策略。

 nn根據策略,根據距離排序後返回3個dn節點

 client跟節點1建立連線傳檔案,將block切成(類似與buffer)。直接用packet進行傳輸

 節點1-傳給節點2,節點2傳給節點3

 注意同時存在讀寫io流在各個節點。

hdfs的讀流程:

Hadoop系列一HDFS簡介

namenode nn namenode的metadata資訊在啟動後會載入到記憶體中,metadata資訊儲存在磁碟檔案fsimage,edits檔案記錄對metadata的操作日誌,block位置資訊只存在記憶體,不儲存到fsimage。secondarynamenode snn 不是nn的備份...

HADOOP學習筆記(一) HDFS

hdfs,它是乙個檔案系統,用於儲存檔案,通過目錄樹來定位檔案 其次,它是分布式的,由很多伺服器聯合起來實現其功能,集群中的伺服器有各自的角色。hdfs的設計適合一次寫入,多次讀出的場景,且不支援檔案的修改。適合用來做資料分析,並不適合用來做網盤應用。namenode 它維護著整個檔案系統的檔案資料...

Hadoop 學習總結之一 HDFS簡介

資料節點是檔案系統中真正儲存資料的地方。從元資料節點 secondary namenode 1.2.1 元資料節點資料夾結構 1.2.2 檔案系統命名空間映像檔案及修改日誌 1.2.3 從元資料節點的目錄結構 1.2.4 資料節點的目錄結構 當客戶端結束寫入資料,則呼叫stream的close函式。...