Hadoop1 和hadoop2 的異同簡潔總結

2021-08-26 09:30:25 字數 762 閱讀 2222

mapreduce將jobtracker中的資源管理和任務的生命週期,更名為yarn。(resourcemanager和nodemanager)

mapreduce將jobtracker中的資源管理和任務的生命週期,更名為yarn。(resourcemanager和nodemanager)

1.從client提交乙個mapreduce任務,這時會在jobclient進行任務的提交,然後向jobtracker請求乙個jobid。

2.此時jobtracker會為該作業任務在hdfs上建立乙個資料夾,該資料夾的名稱就是jobid,並將執行任務所需要的資源檔案全部複製到hdfs上,包括mapreduce打包的jar檔案、配置檔案和客戶端計算所得的分片資訊。並且jar檔案預設是有10份。而輸入的分片資訊告訴的jobtracker應該為該任務啟動幾個mapr任務等。

3.jobtracker接收到作業後,將其放在乙個作業佇列中等待作業排程器對其進行排程,當作業排程器根據自己的演算法排程到作業時,會根據輸入的劃分資訊為每個劃分建立乙個map任務,並將該map任務分配給tasktracker執行,在給tasktracker分配任務時,是將任務複製到tasktracker上去執行,這叫移動計算比移動計算更方便。

4.tasktracker會每隔一段時間對jobtracker傳送一次心跳資訊,告訴jobtracker它依然在執行,同時心跳資訊中還攜帶這很多資訊,比如當前任務的執行進度等資訊,當jobtracker收到最後乙個任務的完成資訊時,便把該任務設定為成功。當jobclient查詢任務時,它得知任務以完成,便返回一條資訊給使用者。 

Hadoop分布式安裝hadoop2

將hadoop安裝至 usr local 中 cd downloads sudo tar zxvf hadoop 2.7.1.tar.gz c usr local 解壓到 usr local中 cd usr local sudo mv hadoop 2.7.1 hadoop 將資料夾名改為hadoo...

hadoop 1 免密登入

每次我們啟動hadoop集群的時候需要去在每台機器上啟動相應節點,這樣我們來回切換機器很麻煩,如果我們在一台機器上就可以連線登陸其他機器的話,就可以在本台機器上啟動部署在其他機器上的所有服務了,但是直接連線的話會讓你重複輸入密碼,也是很麻煩,這篇文章幫你解決這個問題。1 啟動兩台虛擬機器 一台主機名...

Hadoop2的Yarn和MapReduce2相關

1 什麼是yarn?2 yarn 和mapreduce相比,它有什麼特殊作用 yarn是乙個分布式的資源管理系統,用以提高分布式的集群環境下的資源利用率,這些資源包括記憶體 io 網路 磁碟等。其產生的原因是為了解決原mapreduce框架的不足。最初mapreduce的committer們還可以週...