伺服器硬碟掉線解決過程分析

2021-09-29 05:09:46 字數 1635 閱讀 2107

伺服器內有兩塊硬碟掉線,現在伺服器內的lun丟失了,資料恢復工程師開始對故障伺服器進行檢測發現掉線的硬碟並沒有存在物理故障、也沒有壞道等其他故障。於是開始對客戶的故障伺服器進行映象備份。

本次需要進行資料恢復的伺服器沒有硬碟故障,所以硬碟掉線的原因可能是因為硬碟讀寫不穩定導致的,硬碟讀寫不穩定將被控制器預設為是壞盤踢出,掉線的硬碟超過了2塊後就會導致伺服器不可用,此時不能通過常規方式進行修復,只能通過伺服器資料恢復手段進行資料恢復。通過分析該伺服器內的raid條目儲存形式,每個硬碟的不同塊組成乙個raid條目,伺服器資料恢復工程師通過分析解析出來raid條目資訊,每個lun都有乙份lun_map。eva將lun_map分別存放在不同的磁碟中,使用乙個索引來指定其位置。因此去每個磁碟中找這個指向lun_map的索引就可以找到現存lun的資訊了。

通過故障分析硬碟是因為效能原因掉線,這些掉線的硬碟中有一部分資料是老舊資料,由於lun的raid結構大多都是raid5,只需要將乙個lun的raid條目通過raid5的校驗演算法算出校驗值,再和原有的校驗值做比較就可以判斷這個條目中是否有掉線盤。而將乙個lun的所有lun_map都校驗一遍就可以知道這個lun中哪些raid條目中有掉線盤。而這些raid條目中都存在的那個盤就一定是掉線盤。排除掉線盤,然後根據lun_map恢復所有lun的資料即可。

上述的故障分析以及解決思路最終都需要使用程式設計來實現。編寫掃瞄lun_map的程式scan_map.exe,掃瞄全部lun_map,結合人工分析得出最精確的lun_map。編寫檢測raid條目的程式chk_raid.exe,檢測所有lun中掉線的磁碟,結合人工分析排除掉線的磁碟。編寫lun資料恢復程式lun_recovery.exe,結合lun_map恢復所有lun資料。根據編寫好的程式去實現不同的功能,最後使用lun_recovery.exe結合lun_map恢復所有lun的資料。然後人工核對每個lun,確認是否和甲方工程師描述的一致。

根據甲方工程師描述所有lun的資料可以分成兩大部份,一部份是vmware的虛擬機器,一部分是hp-ux上的裸裝置,裸裝置裡存放的是oracle的dbf資料庫。由於我們恢復的是lun,無法看到裡面的檔案,因此需要將這些lun同過人工的核對哪些lun是存放vmware的資料,哪些是hp-ux的裸裝置。然後將lun掛載到不同的驗證環境中驗證恢復的資料是否完整。

在一台dell的伺服器上安裝了esxi5.5虛擬主機環境,然後通過iscsi的方式將恢復的lun掛載到虛擬主機上。但是在vmware vsphere client?上掃瞄vmfs卷,沒有發現。後來發現客戶的虛擬主機是exsi3.5的版本。可能因為版本的原因無法直接掃瞄到vmfs卷,於是換一種驗證方式。將所有符合vmware虛擬機器的lun裡面的虛擬機器檔案都生成出來,然後通過nfs共享的方式掛載到虛擬主機上,然後將虛擬機器乙個乙個的新增到清單。

通過nfs將所有虛擬機器都新增到虛擬主機以後,將所有虛擬機器都加電開機,發現都能啟動系統。由於沒有開機密碼無法確認虛擬機器裡面的檔案是否完整。後來甲方安排工程師通過遠端到我們的伺服器,將所有虛擬機器都開機進入系統,驗證虛擬機器裡面的資料都沒問題。虛擬機器的所有資料都恢復成功。

1、安排員工經常巡視機房,發現有報警資訊及時處理。

2、管理人員操作儲存要謹慎,避免誤操作導致資料丟失。

3、現場發現eva控制器部分模組不太穩定,應當及時更換。

4、由於eva儲存故障是由磁碟不穩定引起的,而這部分磁碟應該是同一批次的磁碟。因此,這些磁碟的效能也快到極限,如果有條件建議換掉這批磁碟。

伺服器肉雞解決過程

上個星期五同事說阿里雲發簡訊說吉林乙個ip登陸了我們公司的乙個伺服器,讓我上去看看,然後在 var log secure日誌中兩行登入日誌 mar 9 20 35 30 localhost sshd 30379 accepted password for root from 221.203.142....

伺服器電源故障解決過程

伺服器 dell 執行環境 較差 工作強度 低 一日,伺服器宕機,嘗試開機,風扇轉動,五到十秒後停止,顯示器上無顯示。重複了多次,故障依舊。原來沒有開過機箱,沒敢動手。先找到說明書,英文的,慢慢檢視其結構說明和常見故障。考慮到電源問題,斷電,開啟機箱。從電源線介面卸下螺絲,想拉出 電源 發現有線纜接...

伺服器掛載硬碟!

前言 linux伺服器要掛載硬碟的原因主要有以下幾點 1 linux伺服器在預設情況下,所有的東西都是裝在系統盤。系統盤的空間有限,如果站點和資料較多很容易把空間撐滿,導致環境和資料庫等等服務啟動不了。2 linux伺服器掛載磁碟可以避免因為系統損壞導致 資料丟失。3 linux伺服器掛載硬碟可以更...