hadoop的第乙個程式wordcount實現

2021-07-07 08:36:19 字數 1009 閱讀 4147

具體安裝步驟請見部落格:

linux hadoop 2.7 偽分布式安裝簡單幾步實現

1. 在本地新建乙個檔案,筆者在~/hadoop-2.7.1/local_data資料夾新建了乙個文字檔案hello.txt,local_data資料夾也是新建的。檔案內容是:

he wo shi he jing

shao wo shi shao jie

ni ni shi lu lu

2. 在hdfs檔案系統中,新建乙個資料夾,用於上傳本地的hello.txt,在hadoop2.7.1目錄下輸入命令:

在hdfs根目錄下建立乙個test目錄:bin/hdfs dfs -mkdir /test  

檢視hdfs根目錄下的目錄結構:bin/hdfs dfs -ls /

3. 將本地的hello.txt文件上傳到test目錄裡

上傳本地檔案:bin/hdfs dfs -put /home/couragek/hadoop-2.7.1/local_data/hello.txt /test/

檢視此時目錄:bin/hdfs dfs -ls /test/

4. 執行word count程式

使用命令:bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/hello.txt /test/out

在/test目錄下生成名為out的檔案:bin/hdfs dfs -ls /test 

結果是在test目錄下生成了乙個名為out的檔案目錄

輸入命令檢視out目錄下的檔案:bin/hdfs dfs -ls /test/out

檢視執行結果:

5. 參考文獻

第乙個Hadoop程式

需求 有100個檔案 每個大概10g,300萬個樣例 每個樣例可以得到對應的類別屬性屬性值。統計屬性值出現的次數 類似 wordcount 其中 word 是 類 cat1 cat3 屬性屬性值 usr bin env python coding utf 8 import sys reload sy...

第乙個hadoop程式 過程和問題清單

一 首先,我是大體是根據 spark亞太研究院系列叢書 spark實戰高手之路 從零開始 這本書來配置hadoop的。1.先 配置hadoop單機模式並執行wordcount 基本是按照這個流程來做的,但是期間遇到了一些問題。org.apache.hadoop.mapreduce.lib.input...

第乙個視窗程式

程式截圖 程式 include lresult callback wndproc hwnd,uint,wparam,lparam int winapi winmain hinstance hinstance,hinstance hprevinstance,pstr szcmdline,int icm...