脫機數倉作業大面積延時的故障覆盤

2021-10-21 06:08:02 字數 1570 閱讀 9147

2021-02-17 早晨發現釘釘群在07:00發出告警:

flow data_warehouse status is running, totally 164 unsuccessful job, primarily because:

dwa_vvip_page_user_trail_daily status:running

dwa_openplatform_xmfm_vip_listeninfo_daily status:running

dwa_vvip_marketing_special_uid_growth_channel_daily status:running

dwa_vvip_related_dau_distribution_daily status:running

dwa_spot_31_vvip_rebuy_daily status:running

al_trail_operation_dashboard_year status:running

dwa_vip_group_center_uv_daily status:running

dwa_vvip_msg_mail_task_6 status:running

dwa_vvip_msg_mail_task_3 status:running

dwa_vvip_mngr_report_daily status:running

dwa_trail_index_new_daily status:running

dwa_trail_index_trail_weekly status:running

dwa_vvip_marketing_special_uid_code_daily status:running

dwa_channel_order_path_new_daily status:running

dwa_xiaoshuo_page_user_trail_daily status:running

當天早晨的04:03由釘釘群報出15條告警訊息,檢視這些告警訊息發現都是記憶體溢位。

(1)登入azkaban,根據釘釘告警提到的job名稱依次檢查相關的日誌,發現有大量的記憶體溢位的記錄。

(2)登入yarn 的rm主頁,發現有大量的nodes下線。

(3)登入上述job作業執行所在的集群主機,分別檢查下線node的軟體環境和硬體環境:軟體環境方面的nodemanager程序仍然存活;檢查硬體環境的記憶體發現,yarn中顯示下線的nodemanager節點的可用記憶體已經不足(剩餘100~300mb)。

(4)繼續檢查下線nodemanager的日誌,發現有多條記錄顯示當前節點已被加入黑名單。

(5)被加入黑名單會導致當前節點不可用,而集群nodemanager節點的減少進一步導致了離線作業的可用資源繼續減少,惡性迴圈的結果導致上百個節點接二連三被拖垮。

爆出故障後,第一時間分析原因並果斷採取措施:重啟各nodemanager。從故障發出到恢復集群用了半小時,當天上午的離線作業未明顯延遲。

(1)及時關注釘釘**出的數倉作業failed告警訊息;

(2)可以考慮對脫機數倉作業的資源需求做適當的限制,或者為數倉作業所在的計算集群做容量公升級(擴容)。

spark脫機數倉優化

當業務需求只取dataframe的某幾列時可以使用select方法來獲取其中幾列,dataframe.select 欄位1 欄位2 欄位3 方法返回值為dataframe dataframe.drop colname 刪除dataframe總的某列 dataframe.withcolumn 新增列名...

脫機數倉與實時數倉案例

資料倉儲是乙個面向主題的 subject oriented 整合的 integrate 相對穩定的 non volatile 反映歷史變化 time variant 的資料集合,用於支援管理決策。資料倉儲是伴隨著企業資訊化發展起來的,在企業資訊化的過程中,隨著資訊化工具的公升級和新工具的應用,資料量...

實時數倉與脫機數倉總結 一

精選30 雲產品,助力企業輕鬆上雲!主要內容 數倉基本概念 數倉架構演變 實時數倉和脫機數倉的區別 數倉基本概念 首先說一下資料倉儲的概念,以下簡稱數倉。數倉的發展 數倉有兩個環節 乙個是數倉的建設 另乙個數倉的應用。早期的數倉 傳統數倉 目前 數倉的架構演變 脫機數倉和實時數倉 接下來我會分別介紹...