大資料入門 HDFS檔案管理系統簡介

2021-10-13 07:21:04 字數 2458 閱讀 7971

hadoop作為大資料主流的基礎架構選擇,至今仍然佔據著重要的地位,而基於hadoop的分布式檔案系統hdfs,也在大資料儲存環節發揮著重要的支撐作用。今天的大資料入門分享,我們就主要來講講hdfs分布式檔案管理系統。

根據物理儲存形態,資料儲存可分為集中式儲存與分布式儲存兩種。集中式儲存以傳統儲存陣列(傳統儲存)為主,分布式儲存(雲儲存)以軟體定義儲存為主。

傳統儲存:一向以可靠性高、穩定性好,功能豐富而著稱,但與此同時,傳統儲存也暴露出橫向擴充套件性差、**昂貴、資料連通困難等不足,容易形成資料孤島,導致資料中心管理和維護成本居高不下。

資料量越來越多,在乙個作業系統管轄的範圍存不下了,那麼就分配到更多的作業系統管理的磁碟中,但是不方便管理和維護,因此需要一種系統來管理多台機器上的檔案,這就是分布式檔案管理系統。

常見的分布式檔案系統有gfs、hdfs、lustre、ceph、gridfs、mogilefs、tfs、fastdfs等,而hdfs作為hadoop的核心元件之一,在市場主流的使用非常普遍。

優點:

(1)高容錯性。資料自動儲存多個副本。通過增加副本的形式,提高容錯性,某乙個副本丟失,可以自動恢復。

(2)適合大規模的資料、檔案處理。

(3)採用流式的資料訪問方式,一次存入多次讀取,存入的資料只能追加,不能修改。

(4)可以部署在廉價的機器上。

缺點:

(1)不適合低延時的資料訪問,對延時要求在毫秒級別的應用,不適合採用hdfs。hdfs是為高吞吐資料傳輸設計的,因此可能犧牲延時。hbase更適合低延時的資料訪問。

(3)無法支援併發寫入。乙個檔案只能有乙個寫,不允許多個執行緒同時寫入。

(4)不支援檔案隨機修改,僅支援檔案追加。

命令列的互動主要通過hadoop fs來操作。

1、顯示目錄資訊

#顯示根目錄下所有檔案和目錄

hadoop fs-ls/

#遞迴顯示根目錄下所有檔案和目錄

hadoop fs-ls-r/

2、將本地檔案或目錄上傳到hdfs

#hdfs dfs-put《本地檔案路徑》hdfs dfs-put ceshi.txt/opt/data

copyfromlocal命令同樣用於上傳檔案

hdfs dfs-copyfromlocal./ceshi.txt/opt/data

3、將檔案或目錄從hdfs中的路徑拷貝到本地

hdfs dfs-get/opt/data/ceshi.txt/usr/local

copytolocal命令同樣可以實現從hdfs中的路徑拷貝到本地

hdfs dfs-copytolocal/opt/data/ceshi.txt/usr/local

4、將檔案或目錄從hdfs的源路徑移動到目標路徑

不允許跨檔案系統移動檔案。

hdfs dfs-mv/opt/data/ceshi.txt/opt/local

5、將檔案或目錄複製到目標路徑下

hdfs dfs-cp[-f][-p|-p[topax]]uri[uri…]

選項:-f選項覆蓋已經存在的目標。

-p選項將保留檔案屬性[topx](時間戳,所有權,許可權,acl,xattr)。

6、刪除乙個檔案或目錄

hdfs dfs-rm[-f][-r|-r][-skiptrash]uri[uri…]

選項:如果檔案不存在,-f選項將不顯示診斷訊息或修改退出狀態以反映錯誤。

-r選項以遞迴方式刪除目錄及其下的任何內容。

-r選項等效於-r。

7、追加乙個檔案到已存在的檔案末尾

8、顯示檔案內容-cat

9、顯示檔案的末尾-tail

hadoop dfs-getmerge/opt/data/hb.txt

合併後的檔案位於當前目錄,不在hdfs中,是本地檔案。

11、統計檔案系統的可用空間資訊-df

12、顯示給定目錄中包含的檔案和目錄的大小或檔案的長度

hdfs dfs-du/opt/data/

hdfs作為hadoop原生的核心元件之一,也是大資料學習當中的一塊重點,分布式檔案管理系統hdfs,需要深入去理解和掌握。

大資料入門 HDFS的特性

目標 掌握hdfs具備的特性 1 海量資料儲存 hdfs可橫向擴充套件,其儲存的檔案可以支援pb級別或更高階別的資料儲存。2 高容錯性 資料儲存多個副本,副本丟失後自動恢復。可構建在廉價的機器上,實現線性擴充套件。當集群增加新節點之後,namenode也可以感知,進行負載均衡,將資料分發和備份資料均...

獲取hdfs (大資料)HDFS

hdfs 是 hadoop 的分布式檔案系統,主要用於離線的大檔案資料資料儲存。hdfs 架構 hdfs 其實與作業系統的檔案系統類似,hdfs 主要有兩種角色,乙個是 namenode 檔案索引 另乙個是 datanode 儲存資料 namenode 主要負責記錄乙個檔案的儲存元資料 例如 檔名 ...

Hadoop大資料分布式檔案系統hdfs的工作機制

hdfs集群分為兩大角色 namenode datanode namenode負責管理整個檔案系統的元資料 datanode 負責管理使用者的檔案資料塊 namenode工作機制 d checkpoint操作的觸發條件配置引數 dfs.namenode.checkpoint.check.period...