利用HDFS在Hadoop集群上面執行計算

檢視當前路徑

pwd

進入某個資料夾，如進入user

cd user

檢視當前路徑有什麼檔案

ls #ordir

退回根目錄

cd

建立資料夾（目錄），如建立乙個filename資料夾

mkdir filename

顯示檔案內容，如檢視當前路徑下的test.txt檔案

cat test.txt

本地驗證**是否正確

將本地檔案上傳到hdfs中，如將本地data資料夾中的text*.txt檔案上傳到hdfs上的/user/filename中

hadoop fs -put data/text*.txt /user/filename

執行mapreduce程式

#展示一下過程 #hadoop jar jar檔名 #-d mapreduce.job.name=『工程名』 #-file **的路徑和名稱 #-file #-reducer #-input 資料所在資料夾 #-output 輸出的資料夾 hadoop jar hadoop.jar -d mapreduce.job.name="511028_test" -file code/reducer.py -reducer code/reducer.py -input /input* -output /output

獲取結果資料，合併起來，合併後的檔案在本地的資料夾中，所以檢視的話要回去找

hadoop fs -getmerge /yourpath filename.txt

Hadoop集群配置與HDFS介紹

理解將多個節點的容量彙總成乙個大的檔案系統，在乙個節點上傳資料，在其的節點上都能夠訪問使用 hdfs 海量資料儲存系統 mapreduce 海量資料的計算系統計算框架 yarn 集群資源管理框架 hdfs的管理者 namenode 作用 1 維護管理檔案系統的名字空間元資料資訊 2 負責確定指...

Hadoop集群之HDFS和YARN啟動和停止命令

1.啟動hdfs集群使用hadoop的批量啟動指令碼 2.停止hdfs集群使用hadoop的批量啟動指令碼 3.啟動單個程序 4.分別檢視啟動後3臺虛擬機器上的程序情況 root hadoop01 jps 6695 datanode 2002 quorumpeermain 6879 dfszkf...

hadoop集群之HDFS和YARN啟動和停止命令

假如我們只有3臺linux虛擬機器，主機名分別為hadoop01 hadoop02和hadoop03，在這3臺機器上，hadoop集群的部署情況如下 hadoop01 1個namenode，1個datanode，1個journalnode，1個zkfc，1個resourcemanager，1個nod...

利用HDFS在Hadoop集群上面執行計算

Hadoop集群配置與HDFS介紹

Hadoop集群之HDFS和YARN啟動和停止命令

hadoop集群之HDFS和YARN啟動和停止命令

相關推薦