Hadoop配置機架感知 python指令碼

2021-09-04 23:09:31 字數 3741 閱讀 3112

昨天qq群裡提了乙個hadoop執行效率分配的問題,總結一下,寫個文章。集群使用hadoop-1.0.3

有些hadoop集群在執行的時候,不完全是絕對平均的分配,不過需要盡可能平均的分配任務,避免某一台或者某幾台伺服器任務過重,其他伺服器無事可做。這個,一方面是需要用到balancer,乙個就是機架感知了。

通常,balancer是自動啟動的。而機架感知則需要單獨配置和編寫指令碼。不過,機架感知,不是說是感知哪個伺服器壞了,是根據機架位置的拓撲結構來選取伺服器進行任務的權重分配。

機架感知需要自己寫乙個指令碼,然後放到hadoop的core-site.xml配置檔案中,用namenode和jobtracker進行呼叫。

python**摘自竹葉青的部落格

#!/usr/bin/python

#-*-coding:utf-8 -*-

import sys

rack =

if __name__=="__main__":

print "/" + rack.get(sys.argv[1],"rack0")

按照老趙的部落格,由於hadoop沒有明確的說明機架感知是感知ip還是感知主機名,所以就都寫上了。然後將指令碼賦予可執行許可權chmod +x rackaware.py,並放到bin/目錄下。

然後開啟conf/core-site.html

放入一下**

<

property

>

<

name

>topology.script.file.name

name

>

<

value

>/opt/modules/hadoop/hadoop-1.0.3/bin/rackaware.py

value

>

property

>

<

property

>

<

name

>topology.script.number.args

name

>

<

value

>20

value

>

property

>

然後重啟hadoop的namenode和jobtracker,可以在logs裡看下namenode和jobtracker的日誌,看到機架感知功能已經啟用了。

namenode日誌

2012-06-08 14:42:19,174 info org.apache.hadoop.hdfs.statechange: block* namesystem.registerdatanode: node registration from 192.168.1.49:50010 storage ds-1155827498-192.168.1.49-50010-1338289368956

2012-06-08 14:42:19,204 info org.apache.hadoop.net.networktopology: adding a new node: /rack2/192.168.1.49:50010

2012-06-08 14:42:19,205 info org.apache.hadoop.hdfs.statechange: block* namesystem.registerdatanode: node registration from 192.168.1.53:50010 storage ds-1773813988-192.168.1.53-50010-1338289405131

2012-06-08 14:42:19,226 info org.apache.hadoop.net.networktopology: adding a new node: /rack2/192.168.1.53:50010

2012-06-08 14:42:19,226 info org.apache.hadoop.hdfs.statechange: block* namesystem.registerdatanode: node registration from 192.168.1.34:50010 storage ds-2024494948-127.0.0.1-50010-1338289438983

2012-06-08 14:42:19,242 info org.apache.hadoop.net.networktopology: adding a new node: /rack1/192.168.1.34:50010

2012-06-08 14:42:19,242 info org.apache.hadoop.hdfs.statechange: block* namesystem.registerdatanode: node registration from 192.168.1.54:50010 storage ds-767528606-192.168.1.54-50010-1338289412267

......

2012-06-08 14:42:49,492 info org.apache.hadoop.hdfs.statechange: state* network topology has 2 racks and 10 datanodes

2012-06-08 14:42:49,492 info org.apache.hadoop.hdfs.statechange: state* underreplicatedblocks has 0 blocks

2012-06-08 14:42:49,642 info org.apache.hadoop.hdfs.server.namenode.fsnamesystem: replicatequeue queueprocessingstatistics: first cycle completed 0 blocks in 0 msec

2012-06-08 14:42:49,642 info org.apache.hadoop.hdfs.server.namenode.fsnamesystem: replicatequeue queueprocessingstatistics: queue flush completed 0 blocks in 0 msec processing time, 0 msec clock time, 1 cycles

jobtracker 日誌

2012-06-08 14:50:42,728 info org.apache.hadoop.net.networktopology: adding a new node: /rack2/hadoop-node-52

2012-06-08 14:50:42,731 info org.apache.hadoop.mapred.jobtracker: adding tracker tracker_hadoop-node-52:localhost.localdomain/127.0.0.1:33999 to host hadoop-node-52

2012-06-08 14:50:42,753 info org.apache.hadoop.net.networktopology: adding a new node: /rack1/hadoop-node-34

2012-06-08 14:50:42,754 info org.apache.hadoop.mapred.jobtracker: adding tracker tracker_hadoop-node-34:localhost.localdomain/127.0.0.1:37025 to host hadoop-node-34

2012-06-08 14:50:42,773 info org.apache.hadoop.net.networktopology: adding a new node: /rack2/hadoop-node-51

hadoop集群配置機架感知

自己搭建的hadoop集群一般預設不具備機架感知能力,為了提高hadoop集群的網路效能,我們常常需要配置機架感知。下面是以下步驟 一 修改配置檔案core site.xml,新增配置屬性 topology.script.file.name home r203 hadoop 0.20.2 racka...

hadoop配置機架感知,原理

hadoop權威指南 裡面有說明,配置機架感知的目的就是要最大程度發揮hadoop的效能,要做到這點就是知道hadoop集群的網路拓撲結構 it knows the topology of your network 如果集群中的機器都跑在乙個機架上,那麼我們什麼都不用做,集群下的節點預設都是在 de...

Hadoop 機架感知

hadoop中副本在不同節點之間的複製需要消耗資源,為了充分發揮hadoop的效能,hadoop需要配置機架感知,這可以讓hadoop通過網路拓撲圖計算不同節點之間的距離,因此來減少資料傳輸消耗的資源。通過hadoop官網我們知道,不配置機架感知,所有的都預設為 default rack,可以通過命...