分布式平行計算MapReduce

2022-04-06 07:32:40 字數 1593 閱讀 3523

作業要求來自:

1.用自己的話闡明hadoop平台上hdfs和mapreduce的功能、工作原理和工作過程。

hdfs(hadoop distributed file system,hadoop分布式檔案系統),它是乙個高度容錯性的系統,適合部署在廉價的機器上。hdfs能提供高吞吐量的資料訪問,適合那些有著超大資料集(large data set)的應用程式。

易於擴充套件的分布式檔案系統

執行在大量普通廉價機器上,提供容錯機制

為大量使用者提供效能不錯的檔案訪問服務

mapreduce是並行處理框架,實現任務分解和排程。

其實原理說通俗一點就是分而治之的思想,將乙個大任務分解成多個小任務(map),小任務執行完了之後,合併計算結果(reduce)。

也就是說,jobtracker拿到job之後,會把job分成很多個maptask和reducetask,交給他們執行。 maptask、reducetask函式的輸入、輸出都是的形式。hdfs儲存的輸入資料經過解析後,以鍵值對的形式,輸入到mapreduce()函式中進行處理,輸出一系列鍵值對作為中間結果,在reduce階段,對擁有同樣key值的中間資料進行合併形成最後結果。

2.hdfs上執行mapreduce

1)檢視是否已經安裝python:

1)準備文字檔案,放在本地/home/hadoop/wc

2)編寫map函式和reduce函式,在本地執行測試通過

3)啟動hadoop:hdfs, jobtracker, tasktracker

4)把文字檔案上傳到hdfs檔案系統上 user/hadoop/input 

5)streaming的jar檔案的路徑寫入環境變數,讓環境變數生效

6)source run.sh來執行mapreduce

分布式平行計算MapReduce

1.用自己的話闡明hadoop平台上hdfs和mapreduce的功能 工作原理和工作過程。hdfs 1 第一次啟動 namenode 格式化後,建立 fsimage 和 edits 檔案。如果不是第一次啟動,直接載入編輯日誌和映象檔案到記憶體。2 客戶端對元資料進行增刪改的請求。3 namenod...

平行計算與分布式計算

主要內容來自維基百科 分布式系統是聯網計算機組,其工作目標相同。術語 併發計算 平行計算 和 分布式計算 有很多重疊,它們之間沒有明顯的區別。15 同一系統可以表徵為 並行 和 分布式 典型分布式系統中的處理器並行執行。16 平行計算可以被看作分布式計算的乙個特定的緊密耦合的形式,17 和分布式計算...

平行計算與分布式計算的區別

平行計算 空間復用多個處理器 intel多 指令優化集是針對乙個處理器,擴充套件處理額外的資料,屬於特殊的平行計算優化 多處理器系統,作業系統採用平行計算的排程方法,允許多個執行緒在多個處理器上同時執行。分布式處理系統 某種處理任務被分解到多個處理器上,系統為扁平結構,一般上層有乙個控制中心,下層有...