重大疑難故障分析日誌(已經解決)

2021-08-26 04:47:02 字數 1184 閱讀 2428

故障現象:

三個不同的應用,每個應用都是n臺伺服器的集群。從兩周前出現乙個非常奇怪的現象,每天從11:20開始,

到下面的幾個點的20分,如12:20,13:20,14:20,15點20.一直到某個點結束,每個點的20分都是會發生資料庫

連線暴漲,把有資料庫請求的方法進行攔截,很多方法竟然執行20多秒,最後超時退出(正常的100ms以內)。

不過這樣的情況僅持續很短時,不超過一分鐘就恢復正常。

分析過程:

我是參與這個故障分析,不是主導。

1.首先懷疑資料庫本身是否有定時任務或時間觸發器在做什麼工作影響了外部的請求,但是資料庫方面的排查

一切正常。全國資料庫排名前十的其中六人在我們集團,他們對資料庫是否異常的認識我們還是相信的。

2.應用本身,如果有定時任務,那麼就應該是針對不同應用的定時任務。這樣的定時任務一定是受管的,但排

查所有配置,未發現問題。

3.既然不同應用同時發生問題,那麼最可能的原因應該來自外部乙個全域性的環境。網路,共同的資料庫或

memcached等。資料庫未發現問題,那麼網路方面分析,流量分布一切正常。路由,防火牆策略等均發現異常。

我們是和國內其它運營商平行的主幹網,維護水平應該比電信級的更高階一些(因為他們是公家的),所以網

絡方面原因排查結果也是可信的。

4.分析業務日誌,是否有瞬間的攻擊,或者特殊的請求比如構造乙個32k的字串讓你的資料庫查詢。日誌我們

細分到每分種,請求數也基本和沒有發生問題的時間斷平均值一致。請求引數也沒有異常。

5.在沒有其它路徑可走的情況下,只能隔離分析(線上環境,不到萬不得已不走這樣的險招)。首先資料庫例項

本身我們認為是可靠的。但是它和應用間的連線質量是否可靠?於是在昨天晚上把資料庫所在的小型機的網絡卡

進行切換,今天11點開始觀察。(11點之前一切正常)

11:20,每天如約而至的鏈結暴漲沒有了,方法呼叫超過500ms的沒有了(原來有大量的超過20s).

故障現象已經消失,定位於鏈結到資料庫的網路振盪。已經接近真相的99%。

今天繼續分析引起振盪的原因: 1.物理網絡卡?2.交換機口?3.bond software?

如果是1或2,什麼樣的物理故障竟然導致定時性的振盪?

最終定位於交換面的上聯口buffer***,每秒1g多的流量同步流量。硬體bug,目前無解,解決方案是每個應用的

資料同步分開做,不走統一的通道。

重大疑難故障分析日誌(已經解決)

故障現象 三個不同的應用,每個應用都是n臺伺服器的集群。從兩周前出現乙個非常奇怪的現象,每天從11 20開始,到下面的幾個點的20分,如12 20,13 20,14 20,15點20.一直到某個點結束,每個點的20分都是會發生資料庫 連線暴漲,把有資料庫請求的方法進行攔截,很多方法竟然執行20多秒,...

生產環境重大故障

今天廣豐生產環境異常,db session數還沒有滿,客戶端就無法登陸銷售系統。而且就連wls控制台也無法登陸 該問題影響可想而知 最後確定是處理了以下 為了便於分析sql執行狀況,給綜管部提交了乙個提案,對連線測試的選項進行了統一關閉。在 kill掉鎖定的connection源頭後,發現所有的物理...

iis5疑難故障

如果您的應用程式無法執行,請開啟 管理工具 的 元件服務管理器 控制台,刪除 iis 程序內應用程式 iis 程序外應用程式 和 iis 實用工具 資料報。在命令提示符下鍵入以下 cd windir system32 inetsrv rundll32 wamreg.dll,createiispack...