利用HDFS在Hadoop集群上面執行計算

2021-09-23 20:52:03 字數 1024 閱讀 7250

檢視當前路徑

pwd
進入某個資料夾,如進入user

cd user
檢視當前路徑有什麼檔案

ls

#ordir

退回根目錄

cd
建立資料夾(目錄),如建立乙個filename資料夾

mkdir filename
顯示檔案內容,如檢視當前路徑下的test.txt檔案

cat test.txt
本地驗證**是否正確

將本地檔案上傳到hdfs中,如將本地data資料夾中的text*.txt檔案上傳到hdfs上的/user/filename中

hadoop fs -put data/text*.txt /user/filename
執行mapreduce程式

#展示一下過程

#hadoop jar jar檔名

#-d mapreduce.job.name=『工程名』

#-file **的路徑和名稱

#-file

#-reducer

#-input 資料所在資料夾

#-output 輸出的資料夾

hadoop jar hadoop.jar

-d mapreduce.job.name="511028_test"

-file code/reducer.py

-reducer code/reducer.py

-input /input*

-output /output

獲取結果資料,合併起來,合併後的檔案在本地的資料夾中,所以檢視的話要回去找

hadoop fs -getmerge /yourpath filename.txt

Hadoop集群配置與HDFS介紹

理解 將多個節點的容量彙總成乙個大的檔案系統,在乙個節點上傳資料,在其的節點上都能夠訪問使用 hdfs 海量資料儲存系統 mapreduce 海量資料的計算系統計算框架 yarn 集群資源管理框架 hdfs的管理者 namenode 作用 1 維護 管理檔案系統的名字空間 元資料資訊 2 負責確定指...

Hadoop集群之HDFS和YARN啟動和停止命令

1.啟動hdfs集群 使用hadoop的批量啟動指令碼 2.停止hdfs集群 使用hadoop的批量啟動指令碼 3.啟動單個程序 4.分別檢視啟動後3臺虛擬機器上的程序情況 root hadoop01 jps 6695 datanode 2002 quorumpeermain 6879 dfszkf...

hadoop集群之HDFS和YARN啟動和停止命令

假如我們只有3臺linux虛擬機器,主機名分別為hadoop01 hadoop02和hadoop03,在這3臺機器上,hadoop集群的部署情況如下 hadoop01 1個namenode,1個datanode,1個journalnode,1個zkfc,1個resourcemanager,1個nod...