脫機數倉作業大面積延時的故障覆盤

2021-02-17 早晨發現釘釘群在07:00發出告警：

flow data_warehouse status is running, totally 164 unsuccessful job, primarily because: dwa_vvip_page_user_trail_daily status:running dwa_openplatform_xmfm_vip_listeninfo_daily status:running dwa_vvip_marketing_special_uid_growth_channel_daily status:running dwa_vvip_related_dau_distribution_daily status:running dwa_spot_31_vvip_rebuy_daily status:running al_trail_operation_dashboard_year status:running dwa_vip_group_center_uv_daily status:running dwa_vvip_msg_mail_task_6 status:running dwa_vvip_msg_mail_task_3 status:running dwa_vvip_mngr_report_daily status:running dwa_trail_index_new_daily status:running dwa_trail_index_trail_weekly status:running dwa_vvip_marketing_special_uid_code_daily status:running dwa_channel_order_path_new_daily status:running

dwa_xiaoshuo_page_user_trail_daily status:running

當天早晨的04:03由釘釘群報出15條告警訊息，檢視這些告警訊息發現都是記憶體溢位。

（1）登入azkaban，根據釘釘告警提到的job名稱依次檢查相關的日誌，發現有大量的記憶體溢位的記錄。

（2）登入yarn 的rm主頁，發現有大量的nodes下線。

（3）登入上述job作業執行所在的集群主機，分別檢查下線node的軟體環境和硬體環境：軟體環境方面的nodemanager程序仍然存活；檢查硬體環境的記憶體發現，yarn中顯示下線的nodemanager節點的可用記憶體已經不足（剩餘100~300mb）。

（4）繼續檢查下線nodemanager的日誌，發現有多條記錄顯示當前節點已被加入黑名單。

（5）被加入黑名單會導致當前節點不可用，而集群nodemanager節點的減少進一步導致了離線作業的可用資源繼續減少，惡性迴圈的結果導致上百個節點接二連三被拖垮。

爆出故障後，第一時間分析原因並果斷採取措施：重啟各nodemanager。從故障發出到恢復集群用了半小時，當天上午的離線作業未明顯延遲。

（1）及時關注釘釘**出的數倉作業failed告警訊息；

（2）可以考慮對脫機數倉作業的資源需求做適當的限制，或者為數倉作業所在的計算集群做容量公升級（擴容）。

脫機數倉作業大面積延時的故障覆盤

spark脫機數倉優化

脫機數倉與實時數倉案例

實時數倉與脫機數倉總結一

脫機數倉作業大面積延時的故障覆盤

spark脫機數倉優化

脫機數倉與實時數倉案例

實時數倉與脫機數倉總結 一

相關推薦

實時數倉與脫機數倉總結一