Hadoop偽分布式執行wordcount小例子

2021-07-10 12:12:34 字數 2437 閱讀 8402

先說點小知識

hadoop fs 使用面最廣,可以操作任何檔案系統

hadoop dfs和hdfs dfs只能操作hdfs相關的

先建資料存放目錄和結果輸出目錄

guo@guo:/opt/hadoop/hadoop-2.7.2# hdfs dfs -mkdir /data/input

guo@guo:/opt/hadoop/hadoop-2.7.2# hdfs dfs -mkdir /data/output

注意:hdfs沒有當前工作目錄的概念,所有檔案元資料都存在namenode節點上,某乙個檔案可能被拆放到不同機器上,也可能將路徑不同的檔案放在同一臺機器上。所以你在硬碟上是找不到剛才建立的目錄的。

將要進行統計的資料上傳到剛才建立的存放目錄

guo@guo:/opt/hadoop/hadoop-2.7.2# hdfs dfs -put test.log /data/input

guo@guo:/opt/hadoop/hadoop-2.7.2# hdfs dfs -ls /data/input

found 1 items

-rw-r--r-- 1 root supergroup 1819 2016-03-14 21:17 /data/input/test.log

進入mapreduce目錄

guo@guo:/opt/hadoop/hadoop-2.7.2# cd /opt/hadoop/hadoop-2.7.2/share/hadoop/mapreduce/
執行wordcount

guo@guo:/opt/hadoop/hadoop-2.7.2/share/hadoop/mapreduce# hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount /data/input /data/output/result
檢視result

guo@guo:/opt/hadoop/hadoop-2.7.2/share/hadoop/mapreduce# hdfs dfs -ls /data/output/result

found 2 items

-rw-r--r-- 1 root supergroup 0 2016-03-14 22:16 /data/output/result/_success

-rw-r--r-- 1 root supergroup 855 2016-03-14 22:16 /data/output/result/part-r-00000

注意:第乙個_success是沒有任何東西的0b,它只是告訴你執行成功了,結果在part-r-00000中

檢視統計結果

guo@guo:/opt/hadoop/hadoop-2.7.2/share/hadoop/mapreduce# hdfs dfs -cat /data/output/result

/part-r-00000

-> 2

-rw------- 5

-rw-r--r-- 5

-rw-rw-r-- 2

../ 1

./ 1

.iceauthority 1

.private 1

.xauthority 1

.bash_history 1

.bash_logout 1

.bashrc 1

.cache/ 1

.config/ 1

.dbus/ 1

.ecryptfs 1

.gconf/ 1

.gvfs/ 1

.local/ 1

.mozilla/ 1

.presage/ 1

.profile 1

.sudo_as_admin_successful 1

.xinputrc 1

.xsession-errors 1

.xsession-errors.old 1

/home/.ecryptfs/guo/.private/ 1

/home/.ecryptfs/guo/.ecryptfs/ 1

0 21 16

這個wordcount沒有那麼智慧型,它只是按空格來分辨是不是乙個單詞的。

Hadoop偽分布式執行wordcount例子

1.進入hadoop目錄,新建乙個test.log檔案,cat命令檢視檔案內容 2.啟動yarn和dfs,一種是全部啟動start all.sh,另外一種分別啟動,如下圖的提示 4.把新建的檔案傳到hdfs的data input中,用ls命令檢視是否傳遞成功 5.進入mapreduce目錄 6.ls...

hadoop偽分布式

首先是本機模式的搭建,如 1 hdfs dfs ls 檢視本地分布式檔案系統,查詢結果為你本機linux檔案系統,說明你的本地模式已經搭建成功 2 進入安裝目錄hadoop資料夾下,進入etc hadoop下對四個配置檔案進行配置 core site.xml hdfs site.xml mapred...

hadoop偽分布式

一 安裝jdk 2 配置環境變數 配置成功 二 ssh免密碼登入 三 hadoop偽分布式配置 2 解壓 3 修改配置檔案 修改為jdk安裝位置 hadoop.tmp.dir file swy bigdata hadoop tmp abase for other temporary director...