分布式檔案系統 HDFS

2021-09-19 09:11:56 字數 509 閱讀 4556

hdfs源於google發表的乙份gfs**,hdfs是hadoop專案的核心子專案,是分布式計算中資料儲存管理的基礎,可以執行在廉價機器上,具有高容錯、高可靠性、高可擴充套件性、高獲得性、高吞吐率等特性,為超大資料集的應用處理帶來極大便利。

1、hdfs的優點

(1)高容錯性(資料自動儲存多個版本,通過增加副本,提高容錯性;當某個副本丟失,hdfs內部機制自動恢復丟失資料。)

(2)適合批處理(移動計算而不是移動資料,會把資料位置提供給計算框架。)

(3)適合大資料處理

(4)流式資料訪問(一次寫入,多次讀取,一旦寫入不能修改只能追加,能夠保證資料的一致性。)

(5)課構建在廉價機器上

2、hdfs的缺點

(1)低延時資料訪問(不適合毫秒級資料儲存)

(2)不適合儲存大量小檔案

(3)不支援併發寫入和檔案隨機修改

分布式檔案系統HDFS

以 bin dfs dfs 開頭的shell命令方式 1 在hdfs中為hadoop使用者建立乙個使用者目錄 hadoop使用者 2 在使用者目錄下建立乙個input目錄 3 在hdfs的根目錄下建立乙個名稱為input的目錄 4 刪除hdfs根目錄中的 input 目錄 在該檔案裡面可以隨意輸入一...

分布式檔案系統HDFS

以 bin dfs dfs 開頭的shell命令方式 1 在hdfs中為hadoop使用者建立乙個使用者目錄 hadoop使用者 2 在使用者目錄下建立乙個input目錄 3 在hdfs的根目錄下建立乙個名稱為input的目錄 4 刪除hdfs根目錄中的 input 目錄 在該檔案裡面可以隨意輸入一...

分布式檔案系統HDFS

作業要求 以 bin dfs dfs 開頭的shell命令方式 在hdfs中為hadoop使用者建立乙個使用者目錄 hadoop使用者 在使用者目錄下建立乙個input目錄 在hdfs的根目錄下建立乙個名稱為input的目錄 刪除hdfs根目錄中的 input 目錄 在該檔案裡面可以隨意輸入一些單詞...