大資料學習 之MapReduce Job

2021-08-28 13:11:54 字數 734 閱讀 6478

1)、先把yarn服務停了

[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ sbin/stop-yarn.sh

2)、把之前的資訊刪了

[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -rm -r -f /user

3)、再建立hdfs的檔案

bin/hdfs dfs -mkdir /user

bin/hdfs dfs -mkdir -p /user/hadoop/input

4)、選擇上傳檔案到hdfs

bin/hdfs dfs -put etc/hadoop/core-site.xml /user/hadoop/input  #就選乙個檔案core-site.xml,如果檔案太大會跑不起

5)、啟動yarn服務

[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ sbin/start-yarn.sh

6)、執行下面

bin/hadoop jar \

share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar \

grep \

/user/hadoop/input \

/user/hadoop/output \

'fs[a-z.]+'

8)檢視結果

cat output/*

大資料之Map reduce

大資料問題一般解決方式 利用雜湊函式進行分流來解決記憶體限制或者其他限制的問題。1.雜湊函式又叫雜湊函式,雜湊函式的輸入域可以是非常大的範圍,但是輸出域是固定範圍。假設為s。雜湊函式的性質 1.典型的雜湊函式都擁有無限的輸入值域。2.輸入值相同時 返回值一樣。3.輸入值不同時,返回值可能一樣,也可能...

大資料之MapReduce工作機制

mapreduce分布式計算系統,搭配yarn集群配合實現大資料計算任務。我們這裡不講mapreduce的 具體實現,而是講mapreduce的執行機制以及它的一些核心思想。了解了這些其實 都很簡單,只要有一些程式設計基礎的人都會寫得出那些 無非就是一堆檔案的內容進行分解整合變換的過程 mapred...

大資料MapReduce總結

mapreduce定義 hadoop mapreduce是乙個軟體框架,基於該框架能夠容易地編寫應用程式,這些應用程式能夠執行在由上千個商用機器組成的大集群上,並以一種可靠的,具有容錯能力的方式並行地處理上tb級別的海量資料集。mapreduce主要思想 分久必合 mapreduce兩個階段 map...