Hadoop的分布式計算 MapReduce

2022-09-21 03:39:07 字數 678 閱讀 3301

什麼是mapreduce?

你想數出一摞牌中有多少張黑桃。直觀方式是一張一張檢查並且數出有多少張是黑桃。

mapreduce方法則是:

1.給在座的所有玩家中分配這摞牌

2.讓每個玩家數自己手中的牌有幾張是黑桃,然後把這個數目匯報給你

3.你把所有玩家告訴你的數字加起來,得到最後的結論

1、mapreduce的概述
(1)mapreduce是一種分布式計算模型,由google提出,主要用於搜尋領域,解決海量資料的計算問題. 

(2)mapreduce是分布式執行的,由兩個階段組成:map和reduce,map階段是乙個獨立的

程式,有很多個節點同時執行,每個節點處理一部分資料。reduce階段是乙個獨立的程式,

有很多個節點同時執行,每個節點處理一部分資料【在這先把reduce理解為乙個單獨的聚合程式即可】。

(3)mapreduce框架都有預設實現,使用者只需要覆蓋map()和reduce()兩個函式,即可實現分布式計算,非常簡單。

(4)這兩個函式的形參和返回值都是,使用的時候一定要注意構造舉例:

想要統計撲克牌每個花色的數量,花色為k,每個花色的數量為v

想要統計每個班級人數,班級為k,每個班級人數為v

2、mapreduce原理

hadoop分布式安裝

工欲善其事,必先利其器。在資料橫行的時代,我們的大神hadoop 出來了,作為分布式處理資料 不但快,而且一般用配置不高的電腦業可以做集群。那麼,現在就開始安裝我們的hadoop 進入hadoop之旅 檔案,這裡就去 apache 的命令進行解壓 tar zxvf hadoop x.tar.gz 好...

hadoop分布式快取

概念 使用distributedcache方法 1.在main方法中載入共享檔案的hdfs路徑,路徑可以是目錄也可以是檔案。可以在路徑中末位追加 別名,在map階段可以使用該別名 string cache hdfs cache cache myfile myfile是別名job.addcachefi...

hadoop偽分布式

首先是本機模式的搭建,如 1 hdfs dfs ls 檢視本地分布式檔案系統,查詢結果為你本機linux檔案系統,說明你的本地模式已經搭建成功 2 進入安裝目錄hadoop資料夾下,進入etc hadoop下對四個配置檔案進行配置 core site.xml hdfs site.xml mapred...