大資料最佳實踐 不要拿你的備份冒風險

2021-09-22 23:54:44 字數 3141 閱讀 9236

本文講的是大資料最佳實踐:不要拿你的備份冒風險,海量資料

集合(又稱「大資料」)儲存給你的儲存環境帶來的問題之一是如何對這些資料進行有效地保護。

pb級別的資料儲存在備份視窗方面可能會引發混亂,而傳統的備份設計無法針對數以百萬的小檔案處理。好訊息是並非所有的大資料資訊都需要通過傳統的方式進行備份。

nick kirsch是emc橫向擴充套件nas平台isilon的產品總監,他表示該產品能夠在備份大資料的過程中更智慧型地處理資料。他的建議是,在你考慮如何保護資料之前,你應該仔細辨別你所要保護的資料。裝置生成的資料--比如資料庫中的報告檔案--可以比備份和恢復更容易重新獲取。

在你嘗試保護大資料儲存時,或許會需要容量更大的二級儲存系統、額外的頻寬以及容納更多資料備份的視窗。

對比保護資料和重新生成資料的成本。kirsch說,在許多情況下,源端資料應該被保護,不過對於各種程式生成的資料,重新執行程式生成或許比對這些資料進行保護的成本更低。

資料保護

對於防護使用者或應用程式故障,ashar baig,taneja集團的資深分析師和諮詢師表示快照技術可以用於大資料的備份。

baig同時推薦使用本地磁碟系統用於快速和簡單的第一層資料保護。「要找到一種可以在本地進行資料拷貝的方案,這樣你可以在本地進行快速的恢復」他說,「做乙份本地拷貝,並且使用映象技術來快速完成,基於映象的快照和複製技術確實可以在提公升速度的同時照顧到效能。」

如果你想要為大資料定製一套全新的備份系統,baig建議你考慮使用目前的備份裝置和軟體。

「任何你為大資料所採購的裝置必須和現有的系統融合」baig 提醒。

備份軟體**商commvault的資深產品和解決方案市場總監jeff echols表示他的大資料客戶正在或者計畫使用磁帶系統和雲**商來保護離線資料。保留這些遺留下的磁帶系統是出於對成本和現有的基礎架構考慮,不過要將其遷移到歸檔應用而非主備份系統。

所需的快速掃瞄

大資料備份系統所面臨的問題之一是每次在備份和歸檔方案啟動時的掃瞄工作。遺留的資料保護系統會在每次備份和歸檔工作執行時掃瞄檔案系統。對於大資料環境中的檔案系統,這確實相當耗費時間。

「備份人員經常要做的是在每次計畫執行備份之前掃瞄檔案系統」commvault的echols說,「即便是一次全備份,或者一次增量備份,都要完成一遍掃瞄程式。而掃瞄所需的時間對於整個操作而言花銷甚大。」

commvault在其simpana資料保護軟體中的onepass特性,可以解決掃瞄問題。根據commvault的說法,onepass是乙個整合了物件級別的程式,用以收集備份、歸檔和報告資料。資料收集後從主系統中移出到contentstore虛擬空間來完成保護操作。

一旦完整的掃瞄完成之後,commvault軟體會在檔案系統中部署乙個指令碼來記錄所有增量備份,這使得整個流程更為高效。

echols表示他也從客戶那裡了解到快照和複製技術,但他認為在某些時候你不得不將資料從主系統中移除。你必須將資料歸檔或刪除,以減少主系統中所需載入和保護的資料。

賓州州立大學的計算及網路基礎架構研究組織(rcc)找到了另一種加速掃瞄的方式。根據psu系統管理員michael fennel的說法,該組織通過固態儲存陣列來加速對數以億計的檔案的掃瞄。

psu的rcc使用ibm的通用並行檔案系統(gpfs)連線到一台dell的powervault md2000儲存陣列上。gpfs會將資料從每一對特定的lun和元資料中分離開。

fenn說掃瞄所有這些檔案使得備份變得極為緩慢,因此他將元資料的備份遷移到一台texas memory系統的ramsan-810快閃儲存器儲存陣列上。在此之前,他整晚地使用過量的大約200塊15,000轉sas驅動器來備份元資料。這一方式將大約需要12至24小時的備份視窗縮短至6小時。而使用快閃儲存器系統則更進一步將備份縮短至一小時左右。

rcc使用ibm的tivoli storage manager備份到磁帶。

「gpfs會深入調查每個元資料,找出資料塊位置,並檢查檔案系統中每乙個單獨的檔案來判斷自上次備份後其是否變更過,」fenn說,「我們備份以往需要12至24小時,主要原因就是需要掃瞄所有檔案。」

他指出單台的ramsan-810可以達到150,000的iops.這樣同時執行兩台可以將iops提公升至300,000.「我們大致需要20,000到300,000 iops」fenn說,「這就是說對於元資料的掃瞄不再是我們整個備份過程中的限制性因素了。」

fenn說rcc備份了大約1.5億的使用者檔案,而這只是裝置生成或使用者產生的所有資料中很小的一部分。

「有太多的檔案需要掃瞄,」他說,「有一些資料可以重新生成。使用者知道這個檔案系統會被備份,而另外的則不會。我們有乙個非保護的檔案系統,上面有幾百萬份我們不會保護的檔案。使用者將資料放到上面的時候就知道有可能丟失。」

fenn同時在會被備份的檔案系統上分配限額,這樣「使用者必須考慮這些檔案是否真的需要備份。」

casino並不願在備份上冒風險

「在遊戲過程中,我們受託進行監控,」pechanga technology solution集團的系統總監,michael grimsley說,「如果監控出現故障,所有的遊戲都不得不暫停。」

另一種可能的方式是複製到容災站點,這樣俱樂部可以在監控系統宕機時快速的恢復。

橫向擴充套件系統

另一種解決效能和容量問題的途徑是使用橫向擴充套件備份系統。這和橫向擴充套件nas類似,不過是針對資料保護的。你可以隨著所要保護的資料的增長,通過增加節點的方式來提公升效能和容量。

「任何備份體系架構,尤其是針對大資料的,都必須能夠合理地平衡效能和容量之間的關係,」sepaton公司的首席技術官jeff tofano說,「否則到最後,它並不能成為一種好的解決方案,並且可能會比使用者預想的要昂貴許多。」

sepaton的s2100-es2模組化虛擬磁帶庫(vtl)定位於高密度資料的大型企業應用。根據公司的說法,其64位處理器節點能夠以每小時43.2tb的速度備份各種型別的資料,並且能夠儲存最高1.6pb的資料。你可以根據需要,在每個集群中擴充套件至八個效能節點,並且通過增加擴充套件櫃來提公升容量。

s2100-ds3則可用於分公司的資料保護,並且可以將資料複製到企業級系統或災難恢復站點中。其還具備高達每小時5.4tb的備份效能,以及遠端備份、重複資料刪除、複製和恢復管理功能。這兩款sepaton系統還同時包含安全擦除技術,能夠隨著資料儲存要求到期,用於可審計的vtl磁帶損壞來釋放磁碟容量。

保護大資料環境需要重新考慮如何利用已有的工具,並且借鑑新的技術來滿足資料增長的需要。找到一些方法來減少你需要保護的資料,並且擴充套件你的保護環境,是確保關鍵資料能從災難性的系統故障中得以儲存的關鍵。

mysql 備份最佳實踐 MySQL備份的最佳實踐

mysql相關事物的最佳實踐,除了效能調優 查詢優化和複製配置之外,另乙個重要的主題是備份。讓我們深入討論一下關於mysql備份的一些基礎知識和最佳實踐。邏輯mysql備份 在mysql中,可以用兩種不同的形式進行備份。第一種形式,邏輯,是最普遍的。本質上,您需要建立所有必要的insert語句來重新...

SQL Server系統資料庫備份最佳實踐

系統資料庫 master 包含登入資訊和其他資料庫的核心資訊 msdb 儲存作業 操作員 警報 備份還原歷史。資料庫郵件資訊等等。model 所有新資料庫的模型,如果希望新資料庫都有某些物件,可以在這裡建立。tempdb sql server重啟時重建,所以不需要備份 除了以上四種,其實還有乙個資料...

SQL Server系統資料庫備份最佳實踐

系統資料庫 master 包含登入資訊和其他資料庫的核心資訊 msdb 儲存作業 操作員 警報 備份還原歷史。資料庫郵件資訊等等。model 所有新資料庫的模型,如果希望新資料庫都有某些物件,可以在這裡建立。tempdb sql server重啟時重建,所以不需要備份 除了以上四種,其實還有乙個資料...