hadoop基本知識點之HDFS

2021-08-30 15:55:28 字數 1274 閱讀 7756

1.hadoop組成

hadoop主要由三大模組組成:

1.1 hdfs

儲存模組

1.2. yarn

資源調配模組(引擎)(分布式資源管理框架)

1.3. mapreduce

計算引擎

2.hdfs儲存模型

3.hdfs架構模型

4.1 基於記憶體儲存

4.2 namenode主要功能

接受客戶端的讀寫要求

收集datanode匯報的block列表資訊

4.3 namenode儲存metadata主要資訊

檔案owership和pemissions

檔案大小和時間

block列表(offset等)

block每個副本的位置(由datanode上報)

datanode

本地磁碟目錄儲存資料(block),檔案形式

同時儲存block的元資料資訊

啟動datanode時,會向namenode匯報block資訊

通過向namenode傳送心跳資訊保持與其聯絡(每3秒一次),如果namenode 10分鐘沒有收到datanode的心跳,則認為其已經lost,則將其block資訊copy到其他datanode上

6.hdfs優點

高容錯性

適合批處理

適合大資料處理

可構建在廉價的機器上

7.hdfs缺點

無法進行低延遲資料訪問

小檔案訪問

併發寫入、檔案隨機修改

8.block副本的放置策略

第乙個副本:放置在上傳檔案的datanode上,如果是集群外提交,則隨機挑選一台磁碟不太滿,cpu不太忙的節點

第二個副本:放置在第乙個副本不同的機架的節點上

第三個副本:與第二個副本相同的機架的節點

11.總結

hdfs就是乙個分餘展的大硬碟:分–分塊 餘–可以冗餘,展–動態擴充套件

雲計算:分布式計算,分布在不懂伺服器中的計算

設計原則:移動計算,而不是移動資料

在生產環境中,namenode和resourcemanager一般情況是在不同機器上,而nodemanageer和datanode一般情況是在同一臺機器上(至少離得近)

基本知識點

1 程序和執行緒的關係 1 在有執行緒的作業系統裡面,程序是分配資源的基本單位,執行緒是排程的基本單位。2 1個程序可以擁有多個執行緒 3 執行緒同時也有一些自己的資源,包括 程式計數器,堆疊等 4 因為執行緒所擁有的資源比較少,因此進行排程的時候所消耗的資源就少。5 執行緒共享程序的 段,程序的一...

基本知識點

dram 動態隨機訪問儲存器 dynamic random access memory 隨機訪問的意思是,訪問任何乙個記憶體單元的速度和它的位置 位址 無關,讀寫位址0x00001和0xffff0所需要的事件是一樣的。rom 唯讀儲存器 read only memory 它的內容是預先寫入的,掉電也...

PHP基本知識點

1.http協議中幾個狀態碼的含義 503 500 401 200 301 302。http狀態碼 1 請求收到,繼續處理 2 操作成功收到,分析 接受 3 完成此請求必須進一步處理 4 請求包含乙個錯誤語法或不能完成 5 伺服器執行乙個完全有效請求失敗 500 伺服器產生內部錯誤 501 伺服器不...