企業核心系統儲存雙活必會遭遇哪三大難點?

2021-09-10 11:04:48 字數 2776 閱讀 8353

核心系統是企業最為重要的系統,尤其是金融行業,它是金融企業的生命線, 一旦資訊科技風險越過了這條底線,企業的整個金融資訊系統將全面癱瘓,後果不堪設想。所以為了牢牢守護住這條命脈,企業一直在不斷的尋求更好的技術和更優的解決方案,來對核心系統的優化之路進行探索,這其中之一便是核心系統儲存雙活優化。

傳統的核心系統儲存都是採用集中式儲存,通過搭建兩地三中心的儲存架構來防範核心系統資料的物理性錯誤,並通過資料備份來防範資料的邏輯錯誤。然而目前的兩地三中心儲存架構為主備架構,一來如果主儲存發生故障,必然需要進行儲存主備切換,由於核心系統資料量巨大,切換時間漫長,即使成 功切換之後 rpo=0,rto 也不少於 10 分鐘;二來雖然備儲存實時存在乙份和主儲存一樣的資料副本,但是這份副本長時間不對外提供讀寫服務,資源使用率低倒也無所謂,這份副本能否在切換之後正常使用,是需要打乙個大大的問號。所以企業每年都會定期進行災難演練,也可能是出於對這份備副本的「不放心」。

基於上述兩點,核心系統是有需要進行分布式雙活架構的轉型,來盡量降低故障帶來的影響,滿足 rpo=0,rto小於 1 分鐘的要求,而轉型的最關鍵一步便是儲存雙活。

雖然儲存雙活技術方案層出不窮,幾乎所有主流的儲存廠商都有一套甚至多套儲存雙活技術解決方案,但基於核心系統的重要地位和獨特的特徵,儲存雙活技術的真正落地實現還是存在著諸多難點,下面就是其中的三個核心難點。

首先最「突出」的難點就是效能影響問題。

傳統的集中式主備儲存架構,在主儲存寫入資料時,需要將資料同步乙份至備儲存,完成後算是一次完整的寫週期;而雙活儲存架構則不一樣,兩個儲存雖然都同時受理寫請求,也會將寫入的資料同步乙份至另一端,但關鍵點在於兩個儲存並不同時對同乙個儲存塊寫操作,也就是說寫同乙個資料塊時,搶占成功的儲存會對該儲存塊加一道「鎖」,防止被另一端寫,另一端想要讀該資料塊,也得乖乖等資料同步完成之後才能進行,所以這樣看來,雙活儲存雖然物理上實現了雙活讀寫,但實際的讀寫效能上,由於存在著大量的「等待鎖釋放」和「資料同步完成」兩個動作,造成了效能的影響。

這個影響面跟什麼有關係呢?

第乙個動作取決於寫操作的頻繁度,也就是寫iops,寫 iops 越高,鎖競爭現象越嚴重;第二個動作取決於兩個儲存間的距離和儲存快取的大小,距離越遠,寫同步往返延時越高,儲存快取越小,寫快取延遲現象的比例越高。

然而核心系統正是由於業務集中度和併發度高,對讀寫響應時間也特別嚴格,特別是對流水表的寫入操作,如果兩個儲存都同時承擔著高併發地對這些集中式的資料表讀寫的任務,那造成的鎖競爭現象將更加嚴重,再加上本身兩個儲存間距離原因導致的延時,效能影響將成倍放大,輕者業務處理緩慢,重則核心系統直接癱瘓,核心系統如果難以破解該難點,也將無法使用儲存雙活技術。

其次最具「風險」的難點就是腦裂與鏈路隱患問題。

一方面,在傳統主備儲存架構中,由於兩個儲存間的關聯是松耦合的關係,儲存與儲存間心跳探測也只是為了保證資料同步,心跳鏈路中斷也只是資料複製中斷而已,並不會造成實質的儲存切換等動作,最多會因為中斷,造成主儲存的 io 短暫hang住,對業務也幾乎無感知。然而倘若公升級為儲存雙活架構,由於整個架構呈現的是一種對稱式的架構,兩個儲存都是作為主儲存,必然需要乙個第三方的仲裁裝置,在儲存間鏈路中斷時,來投票選舉出存活的主儲存,不至於因兩個儲存互相爭搶主動權,而造成兩敗俱傷的慘烈局面。

然而問題就在於此,當發生腦裂現象時,仲裁之後儲存恢復時間需要多久?

這個時間取決於投票表決的時間和競選失敗的儲存前一刻的 io 吞吐量,因為競選成功的儲存需要將這部分 io 回退來保證業務資料的一致性,而核心系統儲存的 io 吞吐量無疑是非常大的,尤其是在晚間批量時,這也將意味著當發生鏈路中斷,為了防範腦裂,需要將整個儲存 io hang 住,並且這個 hang 住的時間也因為是核心系統變得更長。

而矛盾點卻在於,核心系統是最重要的系統,對業務連續性的要求比任何業務系統都要高上一大截,鏈路中斷造成的 rto 太長將無法接受,更令人恐怖的是,如果此時正處晚間核心系統批量,那第二天白天還能否開業就真的是乙個問號了,所以換句話說,建設核心系統儲存雙活需要保證高可靠的鏈路,無論這個鏈路是本地還是跨中心的,只有這個最重要的前提條件具備了,才能開始著手儲存雙活。

另一方面,如果雙活儲存間的鏈路是跨中心的,還需要考慮鏈路的穩定性問題。由於這個鏈路通常是租用運營商的裸光纖,光衰問題和抖動問題也是目前無法解決的難點,一旦發生於核心系統,效能受影響不說,如果因此觸發腦裂仲裁,造成 io hang 住,又是一場全域性性的災難,所以核心系統上跨中心的儲存雙活更是難上加難。

最後最具「考驗」的難點就是儲存架構轉型過程問題。

如果前面兩道鬼門關要麼因自身企業核心系統 io 壓力不大,業務連續性要求不高而「 不太在乎」,可以靠著軟硬體技術而「化險為夷」,那在將傳統儲存高可用架構轉型為雙活儲存架構時,依舊存在些許技術難點的考驗。

表現為:在儲存雙活技術選型時,該技術是否為真正的儲存雙活?而不是備儲存將 io **至主儲存的模式,該技術的成熟度和穩定性如何?是否能夠保護原有儲存投資?能否支援兩地三中心擴充套件?等等;在儲存雙活實施過程中,巨量的核心系統資料如何快速同步到另乙份儲存副本?完成同步之後的兩個儲存副本以怎樣的方式掛載給多台核心系統主機?是兩個副本再虛擬成乙個卷共享給主機還是分別掛給不同的主機?實施時,是否需要停止核心系統,停機視窗如何安排等等;在儲存雙活運維時,如何實時監控儲存雙活的效能狀況,遇到緊急儲存故障或者鏈路波動時,應急措施是怎樣的,是否需要人工干預,需要人工干預時,採取哪些應急解決辦法等等。

以上問題乙個個接踵而至,都是在轉型儲存雙活架構時,需要事先進行周全縝密的考慮, 只有通過了這層「考驗」,方能大膽放心的著手核心系統儲存雙活優化。

作者簡介:鄧毓,江西農信社資深骨幹工程師,主要負責power,x86及相關儲存、資料庫、中介軟體、應用負載、監控、備份和各類虛擬化平台等的運維及管理工作,一線實施經驗豐富,對雙活資料中心及雲平台建設和監控有著深入的見解。

銀行核心系統是什麼

輔助功能都剝離到外圍系統去了,留下乙個小而精的核心系統處理核心業務,這就是 瘦核心,大外圍 這樣做的好處在 首先結構清晰功能明確啦。每個業務流程都乙個開始於外圍,集中到核心系統,核心系統再反饋結果到外圍。大夥該 幹嘛幹嘛,責任明確。企業管理不都提倡這個嘛。其次,這樣的系統架構可以快速適應需求變化。市...

儲存雙活保業務永續

2014年,乙個最顯著的變化是,雙活資料中心跨越了概念炒作的階段,被很多企業使用者所接受。hds提出了一種新的雙活模式 gad global active device 基於儲存實現雙活,為業務連續性提供了堅實保障。今天,保證7 24小時的業務連續性和資料隨時隨地可訪問,已經不再是大型企業客戶的 專...

儲存雙活保業務永續

2014年,乙個最顯著的變化是,雙活資料中心跨越了概念炒作的階段,被很多企業使用者所接受。hds提出了一種新的雙活模式 gad global active device 基於儲存實現雙活,為業務連續性提供了堅實保障。今天,保證7 24小時的業務連續性和資料隨時隨地可訪問,已經不再是大型企業客戶的 專...