Hadoop之詞頻統計WordCount

2021-09-12 02:38:17 字數 1219 閱讀 7661

參考文章:ubuntu16.04安裝hadoop單機和偽分布式環境超詳細

1. 啟動hdfs

start-all.sh
2. 檢視hdfs下包含的檔案目錄

hadoop dfs -ls /
由於是第一次執行,沒有檔案

3. 在hdfs中建立乙個檔案目錄input,將/usr/local/hadoop/readme.txt上傳至input中,此時再用ls檢視就發現多了個input目錄

hdfs dfs -mkdir /input

hadoop fs -put /usr/local/hadoop/readme.txt /input

再檢視hdfs下的input資料夾的內容

hadoop dfs -ls /input
可以看到,此時已經有了我們上傳的readme.txt檔案

4. 執行命令執行wordcount 並將結果輸出到output中   注意將版本號修改為自己安裝的版本

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output
統計成功:

5. 檢視output資料夾內容

其中,_success是成功標誌檔案,可以看到大小為0,裡面沒有內容;part-r-00000檔案儲存統計結果

檢視part-r-00000檔案內容:

hadoop fs -cat /output/part-r-00000
即為查詢結果:

leetcode shell練習之詞頻統計

題目 寫乙個 bash 指令碼以統計乙個文字檔案 words.txt 中每個單詞出現的頻率。為了簡單起見,你可以假設 words.txt只包括小寫字母和 每個單詞只由小寫字母組成。單詞間由乙個或多個空格字元分隔。示例 假設 words.txt 內容如下 the day is sunny the th...

Hadoop 詞頻統計(續)

如上圖所示,統計結果僅僅是按照key排序,value值沒有順序。而我們最終希望的是 1 統計結果在乙個最終檔案中,而不是分散到很多檔案中。2 統計結果按value值,及單詞出現的頻率排序。應該有很多方法可以實現以上的要求,我們以比較簡單的方式來完成這個需求。我們將充分利用hadoop的shuffle...

05 測試hadoop自帶詞頻統計demo

在了解了hadoop中的儲存元件hdfs之後,我們再來看一下hadoop中另乙個重要元件的計算mapreduce。hdfs搞定海量的儲存,mapreduce搞定海量的計算。hadoop如其他優秀的開源元件一樣,也提供了豐富的demo,下面我們就來看一下如何使用mapreduce自帶demo進行詞頻統...