Hadoop學習筆記 1HDFS

2022-03-30 04:42:11 字數 1088 閱讀 3881

1

)hdfs

同樣有block

的概念,不過要大得多,預設

64m。同樣,

hdfs

上的檔案也被劃分為塊大小的多個分塊

chunk

,作為獨立的儲存單元。

2)hdfs

中小於乙個塊大小的檔案不會佔據乙個塊的儲存空間。

那麼為什麼

hdfs

中的塊定義那麼大呢,主要是為了最小化定址開銷。如果塊設定的足夠大,定位這個塊的時間就會明顯小於磁碟檔案傳輸的時間,有利於提高系統的工作效率。

但分塊也不能太大,否則如果任務數比節點少的話,作業速度反而會降低。

對分布式檔案系統中的塊進行抽象有很多好處:

1)儲存的檔案大小不受限制,可以大於系統中單個磁碟的大小。

2)簡化了儲存子系統的設計,因為檔案的元資料單獨處理,和資料塊分離,易於管理。

3)方便了資料備份。

namenode

管理檔案系統的命名空間,它維護著整個檔案系統樹及其樹內的所有檔案和目錄。這些資訊都儲存在制定的

name

目錄下。

datanode

是檔案系統的工作節點。它們負責儲存和檢索資料塊,受到

namenode

排程,並定期向

namenode

傳送所儲存的資料塊列表。

可以看到

namenode

是檔案系統的核心,當

namenode

節點毀壞時,即使

datanode

都完好,也無法獲得儲存的資料,因為不知道怎麼來組織那些儲存塊以構成乙個完整的檔案。所以

namenode

節點的容災設計非常重要。

hadoop

提供兩種機制來進行容災設計。

1)備份元資料。即將

namenode

上儲存的元資料在別的地方進行備份。

2)建立secondarynamenode

,但在平時它不具備

namenode

的功能,只是定期通過編輯日誌合併命名空間和映象。一是可以較少

namenode

啟動時間,而是可以容災。

mycat學習筆記1 HDFS

1.mycat是乙個徹底開源的,面向企業應用開發的大資料庫集群,2.支援事務 acid 可以替代mysql的加強版資料庫,目前支援關係型資料庫以及非關係型資料庫 3.可以用來代替昂貴的oracle資料庫 4.mycat是乙個大資料 hdfs 的sql引擎 通過上面的介紹,我們知道,mycat其實就是...

hadoop第二天 1 HDFS入門

hdfs hadoop distribute file system hadoop分布式檔案系統 1.底層設計思想 2.hdfs設計目標 3.hdfs重要特性 首先,它是乙個檔案系統,用於儲存檔案,通過統一的命名空間目錄樹來定位檔案。其次,它是分布式的,由很多伺服器聯合起來實現其功能,集群中的伺服器...

hadoop學習筆記(HDFS)

hdfs的設計基礎與目標 1 硬體錯誤是常態,因此需要冗餘。2 為大資料而生,流式讀寫,批量讀取而非隨機讀寫。擅長資料分析而不是事務處理。3 大規模資料集。4 一次寫多次讀邏輯設計,即一旦寫入,只能讀,不能修改。5 程式才用 資料就近 原則分配節點執行。hdfs的可靠性 冗餘副本策略 機架策略 心跳...