親歷驚心48小時搶救35億交易資料

2021-08-23 11:19:48 字數 4805 閱讀 3262

這篇文章可能很多人看了僅僅是驚心動魄,不過也會有人看出很多門道,悟出一些東西

誰願意把自己的收穫留在這裡的,我會感激不盡~

以前總聽說老大們遇到down機的事情怎樣怎樣,多麼急迫怎樣怎樣,但卻一直沒有感覺,總以為老大們言過其實。但是前不久一次真實的經歷,讓我終於對儲存工程師這一職業有了更深層的認識……

起因是某月某日某時,我的乙個哥們準備在新上的ibm ds4800盤陣上做raid,剛剛做完時鐘同步,就看見客戶方所有的技術人員一陣風似的全部衝進了機房,帶頭的主管劈頭就是一句:你們幹什麼了?不待我們緩過神來,6、7個人就開始瘋狂的查詢各自負責的部分。「趕快,趕快,查詢原因!」

在過後的幾個小時情況調查的時候,我們終於知道,當時的盤陣上面儲存著該客戶35億的交易記錄和10條要人命的資訊!然而,當我哥們完成時鐘同步的操作後,盤陣上的所有volumn group全部不見!

噩夢開始,35億交易記錄不翼而飛

只見客戶方6、7個人分別查詢各自的原因,資料庫配置,光纖交換機,網路,主機上的應用,甚至電源、機櫃都一一仔細檢查過,統統沒有問題。於是,所有人的目光都轉向了我們:你們到底做了什麼?

我們一下子也沒回過神:「只是,只是在還沒有使用的盤陣上做了時鐘同步,怎麼會和生產系統扯上關係?」

大家的目光隨即投向了連線kvm和盤陣的hub。咦?上邊怎麼還有兩根線纜?那麼我們現在操作的這兩根線纜是?……生產系統盤陣上的!而且使用的是預設ip!!.....我的天!我們前面的操作是做在**了啊?為什麼沒有出現ip衝突?

這時我們才意識到我們犯了什麼樣的錯誤:我們將kvm連在了生產系統的hub上,對客戶新上的盤陣ds4800和原有生產系統上的盤陣ds4300同時做了乙個demo,並進行了時鐘同步,於是,所有的volumn group掉下去了,生產停止了……

四處支援,各路神仙愛莫能助

搞清楚狀況後,已經2個小時過去了。客戶方的人也不再理我們,所有的人開始打**,尋求技術支援。在此後的4個小時中,分別有來自各方的支援陸續趕到,其中包括原裝置維護廠商,新裝置廠商、總代。以及陸續到來的7位ibm的工程師。我哥們至少20次的向各路神仙說明故障原因,客戶方也不停的展示目前盤陣的狀況,但事情仍然陷入僵局……

在我們感嘆客戶方主管巨大能力的同時,也被打入冷宮了,被安排在乙個辦公室裡不能出來,更別說進機房。還好客戶方還允許我們繼續找人支援和打800報修,所以我也有機會看了一眼客戶受重創後的盤陣,除了rootvg,其他的全都沒了,就好像連在乙個完全空白的新盤陣一樣,我當時那個汗啊!

先來的是我們找的**商方面的小型機和儲存技術支援,分別來的3個人同乙個看法,這些操作按道理不會出現這樣的狀況,除了重新啟動下看看情況以外好像都別無辦法。

後來的總代技術明顯要略勝一籌,從了解實情經過的方式和建議都是更加的謹慎,看得出來經驗豐富。他在打**給他的公司的時候加上意味深長的一句:記住這個教訓吧。但是結論仍然是沒有什麼辦法。

與此同時,公司通過其它渠道聯絡上ibm工程師,於是大家苦等ibm工程師。

在此之前總有耳聞,說現在的ibm工程師水平也是一般,於是在心理並沒有對他們有多大的期待,心想使用者就是迷信,乾脆重起得了。事情發生後4個小時,所有人都看完了現場以後,ibm工程師到了。先是2位,再來又是2位,然後是3位。分別來自不同的team負責不同的系統,有負責小機的,有負責儲存的,還有售前方案的,但是他們在一起卻能很好的協商和達成一致,沒有人口出狂言或者輕舉妄動。這裡不得不客觀評價,ibm工程師還是訓練有素。

然後,ibm的工程師也走了……

緊急預案,又出節外生枝

與此同時,客戶方也臨時召開緊急會議,經討論後給我們公布了他們的緊急預案措施:凍結原有的業務儲存系統ds4300,連夜在新的儲存系統ds4800上做raid,建volumn group,將所有應用和資料轉移,先讓系統跑起來,資料再說。於是,大家紛紛給家人**或者簡訊「今晚通宵加班,我不回去了。「

這時回到那兩台為了配置它們而闖禍的ds4800面前,它們卻嚇得再不敢抬眼看我們,死活就是不和我們的管理系統連線。。。。氣得我?##¥%……—

客戶算是有水平了,並沒有在這個時候追究責任。而是讓我們去處理問題,如果這個問題都沒處理好。那,那。。。。。

看來連ds4800也指望不上的時候,一直在一邊幫助客戶協調跑前跑後的我們公司的銷售經理突然對我說:「你跑一趟,和***聯絡,這是**,拉一台ds4300回來,再帶6塊300g的硬碟,就對他說是x總叫你來取的。」我當時那個樂啊!趕緊屁顛屁顛的就打車過去了(那時都半夜了)。到了銷售說的地方,領到機器,也顧不得新洗的白衣服了,和司機、庫管一起把機器扛到了車上。

車剛要發動返回客戶現場,就收到銷售的簡訊:硬碟拿了麼?車還沒開到客戶大門,老遠就看見銷售在門口蹲著等著了……所有的人都在期待這台ds4300,但是,新拉來的ds4300卻沒有接上……

原來,在場的人七手八腳的把這台救命稻草ds4300抬上樓,開啟箱子一瞅,樂了。原來打算用6塊300g的硬碟做臨時空間有點緊張,只能做raid5,不能做hotspare,沒想到上面整整齊齊的插著7塊146g的硬碟,再加上6塊300g硬碟,嘿,這下夠了!

銷售在這個時候還不忘打趣:「慢點慢點,這可是咱們的最後一棵救命稻草,有了它我就算是有了一條活路,沒它我就得從這窗戶口跳下去了。嘿嘿。。」要知道,當時我們可是在19層的機房啊。

上好架,通上電,開始練。第乙個分割槽100g,ok!第二個分割槽,400g,咦?怎麼出錯了?

再來一遍還是不行!這時候,一直鎮定的,老練的,不懂技術的銷售一直直勾勾瞅著螢幕,憋不住了問一句:「這是怎麼回事?」操刀的哥們沒有回答,讓我把某一塊盤拔出來,等一下再插上……故障依舊,關掉再開盤櫃……故障還是依舊……

柳暗花明,35億交易資料失而復得

銷售看不下去了,但是畢竟好涵養,壓了壓焦慮的心情,拉我到外面抽菸去了。煙霧繚繞中,給我講了上次誤操作將一所大學的學籍檔案全部刪除的事情……。最後,掐滅了菸頭:「走,回去看看!」

回到機房,raid居然已經做好了。問了我哥們,原來是這樣:這台ds4300上原來的幾塊盤是做過raid的,但是缺少了一塊。於是盤陣總認為後來插上的硬碟就是原來缺的那塊硬碟,但實際上不是,而且我們還插了不止一塊盤,所以就出錯了。

哥們將所有的盤都拔出去,再將盤陣重起,清除裡面的資訊,再關閉,把盤都插回去,就一切ok了。

哦,這樣啊!心算是放回肚子裡了。再接著就是普通的劃區後的工作,忙到了天亮。

這邊問題暫時解決了,但原來的陣列還一動不動躺在那裡,裡面的資料仍然沒法兒拿出來,所有人的希望也就寄託在ibm的二線上,希望他們能夠拿出最佳的解決方案來。

第二天早上9點整,ibm的工程師來了,並且帶來了2線的解決方案。很可惜具體的操作方式他們不肯透露,大意是將上面的raid按照原來最初的重新做一遍。由ibm的工程師講解方案,客戶方系統維護人員操作。整個恢復過程中,現場氣氛緊張啊,連插拔光纖的動作都做得極為謹慎,所有操作完成後,一檢視,35億的交易資料總算是失而復得!

當時那個興奮啊,要是有蛋糕都能開個party!然後是一些後續的工作,又忙了大半天才結束。

走出客戶的大廈時正是第二天中午,我這才意識到已經2天沒有看到這輪太陽了,沐浴在久違的陽光下,發現周圍的一切都是這樣的美好!

後記:噩夢方醒不忘經驗教訓

曾經聽老大們講過,小型機和儲存盤陣的操作都極為複雜,很多地方和pc機器完全不同。操作pc機的,可以經常自己嘗試和摸索,但在小型機和儲存系統上瞎鼓搗就是自己找死。只要做過客戶系統維護的人員都能深切感受到這份壓力,不少都曾經親身經歷過這種要人命的時刻。曾經聽說過有人深夜3點打車去五百里之外,和夜裡9點打車去千里之外的情況,一旦客戶系統發生問題,影響業務運營,就是***也一定要趕到客戶現場。

還有乙個問題就是,由於實施維護的時候壓力大強度大,所以經常工作到深夜,加上開的視窗會比較多,這個時候是極易出現人為錯誤的時候。所以老大們告誡我們,再複雜的工作一定要一步一步按部就班,另外每做一步操作,保留資料的備份是極其重要的,否則敲錯乙個命令,就有可能帶來追悔莫及的損失,而這樣的例子也的確不在少數。

上周四剛剛將借來的那台ds4300還了回去,仍然記得那天打車去取這台機器的緊張勁兒。心中不免還是有點那麼擔心:如果給的方案不好用呢?如果這台備機不好使呢?如果在後面長時間、高負荷、緊張的情況下操作失誤呢?如果再有其他裝置的損壞?如果……我實在不敢想象下去了。如果,這件事能給所有的同行一點幫助,我就會很欣慰了。

trackbacks

5條記錄

1,超強的敬業精神。

不管是為了個人的前途,公司的利益,還是客戶的權益。

都能感受的到老大們的敬業精神,特別是銷售部經理,如果能和他們一起工作那是多麼幸福的事。

2,超重的技術壓力。

原來小型機和儲存盤陣這麼diao,貌似微微領略到計算機的威力,技術真的很無比重要。

3,超認真的態度。

以前一直討厭複雜的事,慢慢的發現,這種觀點是相當錯誤的。

簡單的事誰都會做,複雜的事才有施展的空間,什麼複雜的事都是由一點點小事堆積來的。

只要把複雜的事分解成一點點的事就ok了,難點就在如果分解。

4,還要那麼一點點運氣

運氣真的很重要,每個人做每個事都是需要的,雖然它琢磨不定,但是它總圍繞在事情的周圍!

上公升到一定的層面,這個例子反應了以下幾個安全特點:

1,業務連續性保障

2,緊急故障處理響應

3,資料冗餘備份

另外,這麼重要的資料和機房,居然讓第三方的工程師在無人監管的情況下,做了這麼低階的誤操作,管理上也責無旁貸。

最後謝謝阿布的意見

歡迎其他人介入討論

覺得你們在動手之前沒仔細檢查(我們在實驗室裡總是小心又小心,不然輕則沒結果,重做;重則有性命之虞。都有強迫症了。)

遇事必須冷靜。事情總有轉圜的。

耶穌死後第三天覆活了。

膽大心細就是本事。

不容易呀

細心一定重要啊

驚心動魄啊。。。沒搞過這。。。還真是不老懂。。,。

親歷驚心48小時搶救35億交易資料

這篇文章可能很多人看了僅僅是驚心動魄,不過也會有人看出很多門道,悟出一些東西 誰願意把自己的收穫留在這裡的,我會感激不盡 以前總聽說老大們遇到down機的事情怎樣怎樣,多麼急迫怎樣怎樣,但卻一直沒有感覺,總以為老大們言過其實。但是前不久一次真實的經歷,讓我終於對儲存工程師這一職業有了更深層的認識 起...

親歷驚心48小時,搶救35億交易資料

上好架,通上電,開始練。第乙個分割槽100g,ok!第二個分割槽,400g,咦?怎麼出錯了?再來一遍還是不行!這時候,一直鎮定的,老練的,不懂技術的銷售一直直勾勾瞅著螢幕,憋不住了問一句 這是怎麼回事?操刀的哥們沒有回答,讓我把某一塊盤拔出來,等一下再插上 故障依舊,關掉再開盤櫃 故障還是依舊 柳暗...

充電技巧 輕鬆待機48小時!

充電的時候注意 在手機上顯示電量100 並且通知欄的電池符號不再有充電標誌的時候,不要拔掉電源,要繼續衝一到兩個小時才好。也可以晚上插到充電器上,第二天早起再拔下來,不會損傷電池,放心。簡單解釋一下,現在比較好的鋰電池大都有快速充電的功能,一般乙個半小時就能充電90 而機器上則顯示已經充滿。之後電池...