如何應對日產萬億訊息資料入庫瓶頸

2021-09-02 22:35:05 字數 1310 閱讀 2809

講鋒刃大資料方案之前,我們先整體看看大資料平台架構,有諸形於

內必形於外,很多區域性狀況的問題,需要從整體來看,為此,我們按照集

群狀況,典型業務流程和資料流、系統架構瓶頸點的思路順序,以表知裡

的進行一下梳理。

一、集群狀況的反饋

當前 hadoop 集群系統效能繁忙(3 大區域 7 大機房), 1000 多儲存

機器對應 4000 多計算機器, cpu 平均值 70%-80%(晚 20 點到 0 點較低),

分鐘負載很高,任務積壓重; ech1 幾百兆,峰值幾個 g;磁碟 io 約幾

百兆,峰值幾 g,讀寫 iops3000。儲存計算比為 1: 2,業務 job 還在增長之勢,

: 3 到 1: 4 將達到集群瓶頸。

很多時候我們看到集群繁忙,只當作運維問題去解決,擴容集群機器,

調整機房部署,優化排程能力和虛擬化,增強任務監控管理等。卻很少關

心集群上跑的都是些什麼任務,為什麼會給集群造成這麼大的壓力,我們

接下來通過梳理業務流程和資料流來搞清楚這個問題。

過對集群、採集、通道、統計、儲存、資料治理、

idc、業務場景的全鏈路架構分析,歸納出以下瓶頸點:

1. hadoop 集群的繁忙壓力

2. 所有業務全部依賴離線 m/r 計算和 hive sql

3. log 採集的大量重複內容

4. mq 集群每日訊息總量萬億但無法提供內容過濾

5. 冷熱儲存、短期儲存(天內)、長期儲存(t+1,周、月、年)

混一起6. 做到小時和分鐘級別統計很難。

7. 沒有乙個統一精簡的資料模型形成標準。

8. 業務的儲存和計算還在迅速增長……

但是不可能所有的架構瓶頸都能在短時間內進行優化改進,我們需要

尋找乙個最合適的切入點,先解決最迫切的問題

遷入實時計算進行優化的考慮

1. 經過分析了燈塔、應用寶、手機瀏覽器和手機管家,業務的相似主

線模式如下,更適合實時處理。

2. 清洗部分實時處理 demo 驗證:相對於離線計算 map/reduce

的時間消耗換算,耗用機器數從 84 臺降低到 15 臺 m10,完成了 90% 的

資料量進行流式清洗,包括:從 kafka 拉資料 -> 解包 ->byte2string-> 清洗

->string2byte->, 5 分鐘處理 10 億訊息資料, 333w/s,接近 mq 純拉取消

費的 360w/s。

3. 清洗轉換步驟,採用實時流處理架構如 storm,通過 spout 從 mq

獲取輸入流,自定義多個 bolt 並行處理輸入流,再依此組合設計。

看Adaptive Path如何應對瞬息萬變的世界

選擇讀 subject to change 這本書,首先是因為它薄,有手感。再看題目,嗯,講變化的,這東西靠譜,很動感,很想讀。通讀全書,發現了很多介紹企業建設和產品設計的策略,雖然一些內容不能完全理解和接受,但書中的幾個觀點確實讓我印象深刻,並深感受用。使用者是一切的一切 you press th...

知物由學 如何應對日益強大的零日攻擊

知物由學 是網易雲易盾打造的乙個品牌欄目,詞語出自漢 王充 論衡 實知 人,能力有高下之分,學習才知道事物的道理,而後才有智慧型,不去求問就不會知道。知物由學 希望通過一篇篇技術乾貨 趨勢解讀 人物思考和沉澱給你帶來收穫的同時,也希望開啟你的眼界,成就不一樣的你。作者介紹 benjamin rous...

三艦護航,看懂球帝如何應對日增百萬使用者

世界盃期間,阿里雲為懂球帝祭出三艘護航艦,為其提供全面的護航方案。現場值守的同時,還提供了專業的安全管理方案,幫助懂球帝抵擋住網路攻擊,讓全球億萬球迷可以更加盡情地享受足球盛宴。效能測試pts performance testing service 是卓越的saas效能測試平台,具備強大的分布式壓測...