Hadoop之詞頻統計WordCount

參考文章：ubuntu16.04安裝hadoop單機和偽分布式環境超詳細

1. 啟動hdfs

start-all.sh

2. 檢視hdfs下包含的檔案目錄

hadoop dfs -ls /

由於是第一次執行，沒有檔案

3. 在hdfs中建立乙個檔案目錄input，將/usr/local/hadoop/readme.txt上傳至input中，此時再用ls檢視就發現多了個input目錄

hdfs dfs -mkdir /input hadoop fs -put /usr/local/hadoop/readme.txt /input

再檢視hdfs下的input資料夾的內容

hadoop dfs -ls /input

可以看到，此時已經有了我們上傳的readme.txt檔案

4. 執行命令執行wordcount 並將結果輸出到output中注意將版本號修改為自己安裝的版本

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output

統計成功：

5. 檢視output資料夾內容

其中，_success是成功標誌檔案，可以看到大小為0，裡面沒有內容；part-r-00000檔案儲存統計結果

檢視part-r-00000檔案內容：

hadoop fs -cat /output/part-r-00000

即為查詢結果：

leetcode shell練習之詞頻統計

題目寫乙個 bash 指令碼以統計乙個文字檔案 words.txt 中每個單詞出現的頻率。為了簡單起見，你可以假設 words.txt只包括小寫字母和每個單詞只由小寫字母組成。單詞間由乙個或多個空格字元分隔。示例假設 words.txt 內容如下 the day is sunny the th...

Hadoop 詞頻統計（續）

如上圖所示，統計結果僅僅是按照key排序，value值沒有順序。而我們最終希望的是 1 統計結果在乙個最終檔案中，而不是分散到很多檔案中。2 統計結果按value值，及單詞出現的頻率排序。應該有很多方法可以實現以上的要求，我們以比較簡單的方式來完成這個需求。我們將充分利用hadoop的shuffle...

05 測試hadoop自帶詞頻統計demo

在了解了hadoop中的儲存元件hdfs之後，我們再來看一下hadoop中另乙個重要元件的計算mapreduce。hdfs搞定海量的儲存，mapreduce搞定海量的計算。hadoop如其他優秀的開源元件一樣，也提供了豐富的demo，下面我們就來看一下如何使用mapreduce自帶demo進行詞頻統...

Hadoop之詞頻統計WordCount

leetcode shell練習之詞頻統計

Hadoop 詞頻統計（續）

05 測試hadoop自帶詞頻統計demo

相關推薦