記一次緊急故障的維修

2021-09-04 06:58:01 字數 584 閱讀 1849

很抱歉,本來想寫一篇很有特點的文章給廣大午飯,當我完成1/2的時候才發現文件丟失了。於是還得重頭來過,寫一篇短文來給一些新技術人員提供乙份參考經驗吧。本文沒有什麼高深的技術內容,但是也是乙份經驗的分享。

週六接到公司的緊急**,公司伺服器出問題了。於是火速從家裡趕到公司。才發現是出了大事。公司機房的一台空調冷凝水管道洩漏,水滲漏到伺服器中,導致機房部分電路跳閘,伺服器關掉,無法訪問。

這個是時候首先要保持乙個冷靜的頭腦。要做的第一件事就是立刻關閉該空調(防止冷凝水形成)將受災的伺服器馬上搬到乾燥的空間,把機箱蓋開啟,取出硬碟等裝置,晾乾水分(這個時候千萬不要接通電源測試,否則引起短路,機器極有可能掛掉)這次有三颱伺服器受影響了。然後需要做的是如果有條件找台風扇,將風扇對著伺服器吹,使得水分快速蒸發。被浸的地方要重點吹。一定要讓水分充分蒸發,在這期間,最需要做的就是耐心等待。等待的時間越長越好。好在是夏天,室溫比較高,經過幾個小時的漫長等待後,接上輸入和輸出裝置(這個時候最好不要掛硬碟)開始加電測試。ok,成功啟動了。關機,載入硬碟測試,ok,也沒有問題。我這次人品好,基本上沒有大問題。當然馬上把原因上報領導,解決漏水的管道。

希望大家在遇到突發事情的時候不要著急,冷靜,沉著。爭取把損失降到最低。

記一次manila故障

排查過程 1.檢視manila的日誌,api.log scheduler.log share.log,排程日誌最具參考性,但是顯示建立成功 實際狀態為creating 排到share時出現大量報錯 get all share usage failed 2.檢查後端儲存,節點均正常 排查過程 1.關閉...

記週日一次故障意外

記週日一次故障意外 找了waf工程師問,並且我這裡也在同步測試,tcping 網域名稱沒返回,不得不 ctrl c 中斷退出 說解析異常,222這個位址不通,然後給我們明確回覆說 47.91.170.222不是waf的入口 ip,切別的ip是沒用的 因為解析異常之後,我是有叫他切到別的能用的waf ...

記一次Postgres CPU爆滿故障

公司專案測試環境呼叫某些介面的時候,伺服器立即崩潰,並一定時間內無法提供服務。第一反應是伺服器需要公升配啦,花錢解決一切!畢竟測試伺服器配置確實不高,2cpu 4gib,能幹啥?不過問題是今天突然發生的,而且說崩就崩。憑著嚴謹的態度,還是要刨根問底地找下問題。記憶體占用並不大,忘記截圖了,反正看下來...