Hadoop集群環境下的網路架構的設計與優化

2021-06-21 11:23:29 字數 850 閱讀 6415

乙個有彈性的網路對hadoop 集群非常重要;對hadoop 集群具有重要影響的網路特性,以其影響程度從大到小依次排序為:網路可用性和彈性、burst 流量突發處理和佇列深度、網路過載比、datanode 網路接入和網路延遲。

(1)網路可用性和彈性。要部署乙個高冗餘性和可擴充套件的網路,支援hadoop 集群的增長。在datanode之間部署多條鏈路的技術要比那些有單點失效或兩點失效的技術要好。交換機和路由器已經在業界被證明能夠為伺服器提供網路可用性。

(2)burst 流量突發處理和佇列深度。hdfs 的有些操作和mapreduce job 會產生突發流量,如向hdfs載入檔案或者把結果檔案寫入hdfs 都需要通過網路。網路如果處理不了突發流量,就會丟棄資料報,所以適當的快取可以緩解突發流量的影響。確保選擇使用快取和佇列的交換機和路由器,來有效處理流量突發。

(3)網路過載比。乙個好的網路設計需要考慮到網路中關鍵節點的擁塞情況。乙個tor 交換機從伺服器接收20gbps 的資料,但是只有2 個1gbps 的上聯口會造成資料報丟失(10:1 的過載比),嚴重影響集群的效能。過度配置的網路的**又非常昂貴。一般情況下,伺服器接入層可以接受的過載比在4:1 左右,接入層和匯聚層之間,或者核心層的過載比在2:1左右。

(4)datanode 網路接入。要基於集群工作負荷來推薦頻寬配置。一般集群中的節點有1 到2 根1gb 的上聯口。是否選擇10gbps 的伺服器要權衡**和效能。

(5)網路延遲。交換機和路由器延遲的變化對集群效能的影響有限。相比網路延遲,應用層延遲對任務的影響比例更大。但是網路的延遲會對應用系統造成潛在的影響,例如造成不必要的應用切換等。

linux環境下hadoop集群時間同步

一.1.root使用者下檢查ntp是否存在 ntp network time protocol 協議 root hadoop103 rpm qa grep ntp ntp 4.2.6p5 1.el6.centos.x86 64 fontpackages filesystem 1.41 1.1.el6...

hadoop集群下安裝zookeeper

從 http tar zxvf zookeeper 3.4.6.tar.gz cd zookeeper 3.4.6 cp conf zoo sample.cfg conf zoo.cfg 2 配置節點 在 home dm opt下新建zookeeperdata這個目錄,並在該目錄下,新建myid檔案...

搭建hadoop集群開發環境1

最近沒事學習一下hadoop,搭建乙個hadoop集群,由於之前接觸linux較少,就順帶著學學linux,這裡將遇到的問題記錄下來 我用的是ubuntu 14.10 desktop amd64,因為不了解,中間遇到各種問題,這裡重點寫一下遇到的問題,至於搭建hadoop具體步驟,可以檢視下面的鏈結...