影響RAID資料可靠性因素分析

2021-09-03 04:14:12 字數 3587 閱讀 5346

無論是終端使用者還是儲存系統研發人員,都想知道影響

raid

資料可靠性的因素具體有哪些?這些影響因素對資料可靠性具體會導致什麼樣的影響?對於研發和使用者我們可以採用什麼樣的配置、什麼樣的技術保證資料可靠性。在此儲存老吳和大家一起分享一下影響

raid

資料可靠性的幾大因素,通過這些分析,我們可以體會到為什麼儲存虛擬化技術、

erasure code

、多副本會成為技術發展的主流。

概括起來,對磁碟儲存系統而言,影響

raid

資料可靠性的三大因素如下:

1,磁碟容量。隨著磁碟容量的增加,資料丟失的概率會大為增加,資料可靠性降低

2,資料重構效能。提公升資料重構效能,增加資料可靠性

3,資料保護級別。增加資料冗餘度,降低資料丟失概率,提公升資料可靠性

根據具體的評測結果,資料丟失的概率和三個影響因素之間的關係如下表所示:

從上表可以看出,隨著磁碟容量的增加,在相同資料重構效能和資料保護級別下,資料丟失的概率也隨之增加。磁碟容量的增加是影響資料可靠性的乙個重要因素。

如上圖所示,在

raid5

資料保護級別下,在相同資料重構(

10mb/s

)的效能下,隨著磁碟容量的增加,資料丟失概率急劇增加,並且理論值和實際值差別很大。理論上,

raid5

的資料丟失概率基本線性增長,在

2tb容量下,資料丟失概率達到

3.15%

。但是在實際測試過程中發現,在

2tb的磁碟容量下,

5年內資料丟失的概率竟然達到了

52.2%

。這已經說明在

10mb/s

資料重構效能下,

raid5

資料保護級別已經不能在大容量儲存系統中應用了,存在極高的資料丟失風險。在

emc的磁碟備份、歸檔系統中,考慮了這方面的因素。應用大容量磁碟作為資料備份應用時,都會直接採用

raid6

資料保護級別。但是即使在這種情況下,在全球每年仍然會出現很多資料丟失的案例。

從技術的角度分析,磁碟容量的增加導致資料丟失的概率提公升,這是很容易理解的。在相同的資料重構效能前提下,一旦

raid5

系統進入降級模式對資料進行恢復時,此時系統已經不具備資料保護的能力了。在降級模式下如果再次發生磁碟故障,那麼就會導致資料丟失。磁碟容量的增加勢必會延長降級模式的時間,所以資料丟失的概率也會急劇增加。從分析可以看出,影響資料丟失概率的是降級模式時間。因此可以通過提公升資料重構的效能來縮短降級模式的時間,從而降低資料丟失的概率,達到增強資料可靠性的目的。

如下圖所示,通過提公升資料重構的效能,的確可以增強資料可靠性,降低資料丟失的概率。

無論是從理論上還是從實際的測試結果都可以看出,提公升資料重構的效能可以降低資料丟失的概率。從上面的資料可以看出,資料重構效能從

10mb/s

提公升到60mb/s

之後,資料丟失概率減小到以前的

1/5以下。根據這個原理,在

raid

的設計方面想盡了一切辦法去提公升資料重構效能。可以想到的方法有區域性資料重構、基於優先順序排程的資料重構、基於拷貝方式的資料重構以及拋棄傳統

raid

架構,採用

de-clustered raid

的資料分布方式。這些不同的方法,其乙個很重要的目的就是為了提公升資料重構效能,從而增強資料可靠性。

由於受限於傳統

raid

的資料分布限制,傳統

raid

無論採用何種方式進行優化,其資料重構效能都無法進行擴充套件,峰值效能侷限為單盤寫效能。正因為這個原因,

raid

研發人員開始拋棄傳統

raid

架構,提出

de-clustered raid

、dynamic disk pool

、dynamic raid

以及raid2.0

等概念。這些概念背後的唯一思想是將儲存虛擬化(底層虛擬化技術)技術引入到

raid

設計中。通過虛擬化技術的應用,使得資料重構效能可以隨著磁碟數量的增加而線性增加。這是乙個非常重要的突破,快閃儲存器系統、分布式儲存系統中的資料保護,很多都將採用這一思想。

影響資料可靠性的另乙個因素是資料保護級別。如果說提公升資料重構效能僅僅是對資料可靠性的一種優化,那麼改變資料保護級別將會對資料可靠性帶來巨大提公升。下圖對比了在不同資料保護級別下的資料丟失概率。

從對比結果可以看出,採用

raid6

之後,資料丟失概率大為降低。在

1tb磁碟容量情況下,資料保護級別從

raid5

提公升到raid6

之後,資料丟失概率從

52.2%

降到0.15%

,這是非常驚人的資料可靠性提公升。基於此,

raid

資料保護技術的乙個很重要方向是

erasure code

,通過erasure code

可以進一步增加資料冗餘度,避免多盤同時損壞所引入的資料丟失問題。

raid5

可以容忍單盤損壞;

raid6

可以容忍兩塊同時損壞;採用

erasure code

之後,可以容忍超過兩塊盤同時發生故障。從技術的角度來看,增加冗餘度,本身也是為了降低發生無資料保護降級模式的概率。從這一點上來看,提高資料重構效能和增加冗餘度都是為了減少無資料保護降級模式的時間視窗。

單個raid6

資料保護系統看似資料丟失的概率很低,但是,在實際的乙個大容量儲存系統(

pb級)中,

raid6

發生資料丟失概率將會急劇增加。並且隨著大容量磁碟的應用,

raid6

資料保護系統的資料丟失概率將會使得系統不可用。下圖給出了不同容量磁碟構建

raid6

時,在海量儲存系統中的資料丟失概率。

從圖中可以看出,當單盤容量達到

10tb

時,乙個超過

30pb

的海量儲存系統,如果採用

raid6

的資料保護級別,那麼在

5年內資料丟失概率將會超過

10%。所以,在設計海量儲存系統時,我們需要考慮更高冗餘的資料保護級別,例如多副本,

erasure code

。在更高資料冗餘級別的基礎上,我們需要考慮更快的資料重構速度,例如將底層虛擬化技術引入

raid

。在綜合這些技術的基礎之上,我們可以降低資料丟失的概率,提公升儲存系統資料可靠性。

(來自儲存老吳的部落格——儲存之道)

影響RAID資料可靠性因素分析

無論是終端使用者還是儲存系統研發人員,都想知道影響 raid 資料可靠性的因素具體有哪些?這些影響因素對資料可靠性具體會導致什麼樣的影響?對於研發和使用者我們可以採用什麼樣的配置 什麼樣的技術保證資料可靠性。在此儲存老吳和大家一起分享一下影響 raid 資料可靠性的幾大因素,通過這些分析,我們可以體...

ada語言的可靠性分析 2019可靠性培訓公開課

xreliability業務範圍 2019年可靠性培訓公開課由於個人時間的關係,只能夠集中在一周的五天分5個不同的主題一次性完成,無法分散開來。今年僅此一次,如果有培訓預算的朋友請了解後盡早報名!reliability technology mosch qq群號碼 342531964 2019可靠性...

Spark Streaming的資料可靠性和一致性

spark streaming自發布起就得到了廣泛的關注,然而作為乙個年輕的專案,需要提公升的地方同樣很多,比如1.2之前版本driver掛掉可能會丟失資料。這裡將分析它的可靠性機制。眼下大資料領域最熱門的詞彙之一便是流計算了,其中最耀眼的專案無疑是來自spark社群的spark streaming...