伺服器RAID磁碟壞道修復實戰

2021-09-04 01:56:31 字數 1675 閱讀 3047

於是乎登陸報警伺服器使磁碟陣列檢測工具進行了詳細的檢查,報告顯示

既然是警告也就不是特別嚴重的錯誤,經過與戴爾工程師的確認,是磁碟出現了壞道,由於是伺服器且有備份,暫時沒有去機房處理。

過了兩天又出現了另一台mysql資料庫伺服器也發出了同樣的警報,可怕的是通過檢測報告的

看樣子伺服器在今年是硬體故障高發期啊,dell伺服器如果不是由廠家進貨的話,如果你是維護的人員可就要當心了。

我說的什麼意思你懂得!

於是發郵件和總監和開發經理進行溝通,郵件中說了故障的詳細情況,並且給出了當前的緊急解決措施(其中伺服器做了檔案的異機備份,資料庫伺服器由於是主從結構,這個不必太擔心,切每天都有備份計畫本地和異地)有一點伺服器的磁碟是支援熱插拔的,也就是說不用停機進行磁碟的更換是沒有問題的,但是為了安全平穩經過溝通一致認為在晚上比較合適(其實這完全是沒信心導致的,白天處理其實影響不大,可能就是會導致io負載高一些),避開了業務高峰和訪問高峰,這樣給我們解決問題提供了充足的時間。

最讓我放心的是伺服器的陣列配置是通過4塊磁碟做的raid5+hot spare 這樣的配置有乙個很大的好處就是: 如果正常的raid5中的三塊磁碟有任何一塊損壞了,raid陣列暫時是安全的

如果配置了熱備盤,那麼熱備盤會在raid陣列中某塊磁碟算壞的時候進行替補,raid陣列重建。 當損壞的磁碟更換後。 熱備盤會識別到,然後將自身的資料與新替換的磁碟進行資料同步。當資料同步完成之後就會恢復到原來的角色-熱備盤。 好神奇啊:)

知道了陣列的工作原理也就不用擔心了,第二天晚上按照事先計畫好的方案進行

首先進行重要檔案的手工備份以保持備份的最新,,資料庫等備份到異地ok

然後按照預先的計畫,拔下故障磁碟,立即插入新的磁碟,這個時候,新插入磁碟會閃爍幾秒鐘,這個過程就是主機板識別的過程,然後指示一直處於靜止狀態。

這個時候第四塊硬碟也就是熱備盤的資料讀寫燈狂閃,你應該猜到了,熱備已經檢測到有磁碟掉線了,然後就自動加入raid進行重建,300g的容量大概重建完成用了30分鐘的時間

為了驗證我的想法,我把伺服器進行了重啟然後進入到bios裡面的raid卡配置工具裡面進行檢視,這個時候顯示的是熱備盤參與陣列進行重建,而替換的新磁碟狀態是ready

等了大約30分鐘後,raid重建完成。 替換的新磁碟的狀態馬上就變成了 replacing 。這個過程大概同樣需要30分鐘左右。

在系統中進行檢測磁碟的狀態是 cpoyback。

最後正常的狀態是 熱備盤的角色恢復成熱備模式,陣列完成重建,正常工作。

進入系統重新檢測錯誤消失了

注:以上說道的在系統中檢測的具體工具是:

伺服器磁碟陣列 RAID配置

系統型號 rd450 720i raid卡 raid環境 磁碟陣列中三塊硬碟,兩塊300gb的做成了raid1 乙個120gbssd做的raid0 遇到的問題 由於中間把ssd拔出來過,導致ssd橙色燈常亮,但不是紅色 故障 在啟動自檢時,在megaraid下面應該顯示 2 virtualdrive...

伺服器磁碟陣列 RAID配置

系統型號 rd450 720i raid卡 raid環境 磁碟陣列中三塊硬碟,兩塊300gb的做成了raid1 乙個120gbssd做的raid0 遇到的問題 由於中間把ssd拔出來過,導致ssd橙色燈常亮,但不是紅色 故障 在啟動自檢時,在megaraid下面應該顯示 2 virtualdrive...

伺服器RAID及配置實戰

1.raid redundent array of inexpensive disk 廉價的磁碟冗餘陣列 想法 把多個便宜的小磁碟組合在一起,成為乙個磁碟組,使效能達到乙個容量巨大,昂貴的磁碟。2.購買伺服器後先做raid,再做系統,在做pv,vg,lv,root要弄出去 3.raid級別 0 6種...