087實戰 集群的規模

2021-09-07 08:11:18 字數 1188 閱讀 4390

1.整體規模

2臺(namenode ha,resourcemanager ha,hmaster ha)

10臺(datanode,nodemanager,journalnode,regionserver)

1臺(hive,sqoop,oozie,hue)

3臺(zookeeper)

2.記憶體以及cpu

cpu:

32-64核

記憶體:64-128g

3.具體分配

namenode:16g以上

resourcemanager:一般2g,預設1g

hmaster:2g

----------------------------------------------20g

datanode:1g

nodemanager:1g

journalnode:1g

regionserver:一般是16g

----------------------------------------------20g

hive,sqoop,oozie,hue:1g

-----------------------------------------------1g

zk:1g

要求磁碟讀寫更快

-----------------------------------------------3g

yarn:

)yarn.nodemanager.resource.memory-mb:8192

預設是8g。

給定的是每個nm節點,任務執行允許分配的記憶體大小,工作中一般都會改大, 16*1024 或 24*1024

)yarn.nodemanager.resource.cpu-vcores:8

給定的是每個nm節點,任務執行允許分配的cpu大小,必須和memory-mb轉換為gb一樣的值一樣,工作中一般都會改大, 16 或 24

4.網路

萬兆千兆:這時,瓶頸出現在網路上

5.資料量

1~3千萬的資料量,大約400w

需要磁碟50g。

6.job資料

總數量在40個左右,mr程式30個左右,hive不到10個

7.案例

EFK kafka集群實戰

業務層可以直接寫入到kafka佇列中,不用擔心elasticsearch的寫入效率問題 架構圖 1 kafka是乙個訊息佇列伺服器,kafka服務又稱為broker,訊息傳送者稱為producer,訊息接收者稱為consumer,2 訊息以topic的形式傳送到broker,消費者訂閱topic,實...

大規模資料實戰

前後端處理分離解耦,前批處理 有向圖編譯,後端為有向圖優化 自動資源分配 自動監控 錯誤跟蹤 首先我們忘掉所有的框架,我們想做的業務設計其實是就是乙個count 乙個topk 衡量指標很簡單是sla 工程一致性模型,強一致性,弱一致性,最終一致性 cloud spanner 就是強一致性,業務級的資...

Zookeeper集群搭建實戰

環境依賴 使用centos7.5 使用如下三颱伺服器 192.168.43.128,192.168.43.129和192.168.43.130 1 zookeeper安裝 tar zxvf zookeeper 3.4.12.tar.gz c opt cd opt mv zookeeper 3.4.1...