Hadoop學習筆記(四) HDFS概述

2021-07-02 23:26:25 字數 684 閱讀 4185

hdfs(hadoop distributed file system)分布式檔案儲存系統。

hdfs的架構:

mapreduce的結構:

namenode:

是整個檔案系統的管理節點,它維護著整個檔案系統的檔案目錄樹,檔案、目錄的元資訊和每個檔案對應的資料塊列表。接收使用者的操作請求。

檔案包括:

fsimage:元資料映象檔案。儲存某一段時間namenode記憶體元資料資訊

edits:操作日誌檔案

fstimes:儲存最近一次checkpoint的時間

以上這些檔案是儲存在linux的檔案系統中

其中這些配置檔案對應core-site.xml的hadoop.tmp.dir屬性

datanode:

提供真實檔案資料的儲存服務

檔案塊(block): 最基本的儲存單位。對於檔案內容而言,乙個檔案的長度大小時size,那麼從檔案的o偏移開始,按照固定的大小,順序對檔案進行劃分並編號,劃分好的每一塊稱為乙個block。hdfs預設的block大小是64mb,以乙個256mb的檔案,公郵256/64=4個block。

不同於普通檔案系統的是,hdfs中,如果乙個檔案小於乙個資料塊的大小,並不占用整個資料塊的儲存空間

replication。 多副本,預設是三個,這個在hdfs-site.xml的dfs.replication屬性

hadoop學習筆記(HDFS)

hdfs的設計基礎與目標 1 硬體錯誤是常態,因此需要冗餘。2 為大資料而生,流式讀寫,批量讀取而非隨機讀寫。擅長資料分析而不是事務處理。3 大規模資料集。4 一次寫多次讀邏輯設計,即一旦寫入,只能讀,不能修改。5 程式才用 資料就近 原則分配節點執行。hdfs的可靠性 冗餘副本策略 機架策略 心跳...

hadoop學習筆記(二) HDFS

定義 hdfs hadoop distributed file system 它是乙個檔案系統,用於儲存檔案,通過目錄樹來定位檔案,它是分布式的,由很多伺服器聯合起來實現其功能。場景 適合一次寫入,多次讀出的場景,且不支援檔案的修改,適合用來做資料分析,不適合做網盤應用。優點 1.高容錯性 資料儲存...

HADOOP學習筆記(一) HDFS

hdfs,它是乙個檔案系統,用於儲存檔案,通過目錄樹來定位檔案 其次,它是分布式的,由很多伺服器聯合起來實現其功能,集群中的伺服器有各自的角色。hdfs的設計適合一次寫入,多次讀出的場景,且不支援檔案的修改。適合用來做資料分析,並不適合用來做網盤應用。namenode 它維護著整個檔案系統的檔案資料...