Hadoop之了解HDFS,告別回家等通知!!!!

2021-10-09 04:12:22 字數 944 閱讀 8207

hdfs是分布式檔案系統,即:distributed file system,加上hadoop,即hdfs;

解決了海量資料無法單機儲存的問題

隨著資料量越來越大,儲存所有的資料已經無法在一台機器上完成,所以就會將資料分配到不同的機器上進行儲存,可是這樣就會出現不方便管理和維護的問題,所以,我們就希望有乙個系統可以將這些分布在不同操作伺服器上的資料進行統一管理,這就有了分布式檔案系統既(hdfs)!

優點:

高容錯性,安全性;

資料儲存在不同的機器中,並且每個資料預設儲存3個副本(儲存在不同的機器中),當集群中的某個資料塊的副本由於某種原因(宕機,磁碟損壞等)丟失以後,hdfs會自動恢復!

擴充套件性;

hdfs的儲存能力可以通過新增機器來擴容,並且極易橫向擴容 ,整個集群中所有機器的儲存能力就是hdfs的儲存能力

可儲存海量資料;

缺點:

1不適合低延遲的資料訪問

2不適合儲存大量的小資料檔案

3不支援併發寫,檔案的隨機修改

注意:hdfs檔案系統適合一次寫入多次讀取的資料操作!主要用於儲存資料

namenode(主節點)功能:

接受datanode的註冊,分配集群id

管理監控datanode的儲存資料副本複製

管理資料儲存資訊稱為(元資料)

提供乙個虛擬的客戶端訪問目錄

接受客戶端的請求

datanode(從節點)

註冊 匯報資料儲存情況

接受副本複製工作

真正儲存資料的節點

真正處理客戶端的讀寫請求

secondary namenode

管理元資料

hadoop之HDFS的擴充

最近在vm中進行擴容之後考慮,openstack的容量新增,隨之想起hdfs的容量擴充的問題,從網上查詢資料之後,現總結如下 首先在伺服器上大都使用的linux的系統,實驗上大都採用的是centos開源的專案。在linux中新增硬碟時,需要考慮的是容量,但是隨著硬體資源的擴充套件現在磁碟的容量可鞥會...

研磨Hadoop之HDFS初探

hdfs是乙個分布式檔案系統,通過目錄樹來定位檔案。hdfs的設計適合一次寫入,多次讀取的場景,且不支援檔案的修改。1 優點 1 高容錯性 資料自動儲存多個副本,通過增加副本提高容錯性。某乙個副本丟失,可以自動恢復 2 適合大資料處理 資料規模 可以處理gb tb 甚至pb的資料 檔案規模 處理百萬...

Hadoop程式設計實現之HDFS

hdfs原理圖 下面我們來寫乙個基於hdfs的demo,該demo主要實現的是將hdfs上的乙個檔案內容讀取出來並儲存到另乙個檔案上的功能。1.輔助類 這個類主要是用來獲取hdfs檔案系統連線的 public class hdfsutils param popenuri param puser re...