大資料學習之MapReduce Job

1)、先把yarn服務停了

[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ sbin/stop-yarn.sh

2)、把之前的資訊刪了

[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -rm -r -f /user

3)、再建立hdfs的檔案

bin/hdfs dfs -mkdir /user

bin/hdfs dfs -mkdir -p /user/hadoop/input

4)、選擇上傳檔案到hdfs

bin/hdfs dfs -put etc/hadoop/core-site.xml /user/hadoop/input #就選乙個檔案core-site.xml，如果檔案太大會跑不起

5)、啟動yarn服務

[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ sbin/start-yarn.sh

6)、執行下面

bin/hadoop jar \

share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar \

grep \

/user/hadoop/input \

/user/hadoop/output \

'fs[a-z.]+'

8)檢視結果

cat output/*

大資料之Map reduce

大資料問題一般解決方式利用雜湊函式進行分流來解決記憶體限制或者其他限制的問題。1.雜湊函式又叫雜湊函式，雜湊函式的輸入域可以是非常大的範圍，但是輸出域是固定範圍。假設為s。雜湊函式的性質 1.典型的雜湊函式都擁有無限的輸入值域。2.輸入值相同時返回值一樣。3.輸入值不同時，返回值可能一樣，也可能...

大資料之MapReduce工作機制

mapreduce分布式計算系統，搭配yarn集群配合實現大資料計算任務。我們這裡不講mapreduce的具體實現，而是講mapreduce的執行機制以及它的一些核心思想。了解了這些其實都很簡單，只要有一些程式設計基礎的人都會寫得出那些無非就是一堆檔案的內容進行分解整合變換的過程 mapred...

大資料MapReduce總結

mapreduce定義 hadoop mapreduce是乙個軟體框架，基於該框架能夠容易地編寫應用程式，這些應用程式能夠執行在由上千個商用機器組成的大集群上，並以一種可靠的，具有容錯能力的方式並行地處理上tb級別的海量資料集。mapreduce主要思想分久必合 mapreduce兩個階段 map...

大資料學習 之MapReduce Job

大資料之Map reduce

大資料之MapReduce工作機制

大資料MapReduce總結

相關推薦

大資料學習之MapReduce Job