換個角度思考大資料

2021-08-27 02:14:43 字數 3315 閱讀 7137

什麼是大資料?idc的權威定義為:滿足4v(variety, velocity, volume, value,即種類多、流量大、容量大、價值高)指標的資料稱為大資料。idc對大資料技術的定位為:通過高速捕捉、發現和/或分析,從大容量資料中獲取價值的一種新的技術架構。大資料主要涉及兩個不同的技術領域:一項致力於研發可以擴充套件至pb甚至eb級別的大資料儲存平台;另一項則是大資料分析,關注在最短時間內處理大量不同型別的資料集。這兩個論題已經被充分討論,這裡不準備再作討論,而是換個角度思考一下大資料,事實上可能與大資料儲存平台更相關一點。這些需求或者思考,或源自使用者模糊的需求,或源自儲存同行的交流討論,還有一些源自儲存實踐中的感悟。

1、資料備份

資訊作為現代企業的核心資產,一旦發生資料損壞或丟失,小則帶來不同程度的經濟損失,大則關係企業生存。因此,現在企業對重要資料備份都不得不高度重視。在大資料之前,企業需要備份的資料量通常在gb級-數十tb級之間,上百tb的資料量的企業非常之少。這些資料往往都是oracle/db2/sqlserver等資料庫的結構化資料,以及ftp/cifs/nfs等檔案共享服務的非結構化資料,目前諸如symantec/falcon/commvault/emc/eisoo等公司的備份系統都可以很好地滿足普通的備份需求。然而當遇上大資料,它們是否仍然可以滿足備份需求呢?大資料容量很容易達到數十tb級以上,數百tb甚至pb級的案例也不再鮮見,而且這些資料種類多、流量大,都是新增資料。從備份技術角度看,全備份/增量備份/差異備份的備份視窗會很大,cdp的併發i/o捕獲和處理能力要超強,否則大量資料都來不及備份。從備份資料量看,備份所需要的儲存空間至少生產資料量的一倍以上,這個成本是巨大的。還有重點的一點是,大資料通常都是分布式採集、儲存和處理的,實現統一的資料備份對備份系統是個技術挑戰。或許,大資料天然不合適採用備份技術,而需要由儲存系統本身的機制來解決,諸如多版本(multi-vesion)、寫新位址(write any where,可實現自然的快照)等。

2、長期儲存

資訊有生命週期,金融/商業/財務/通訊/法律等很多資料都需要遵從法規儲存相應年限,一些重要的科學實驗資料和歷史資料甚至要永久儲存。大資料作為現代企業有重要價的資產,長期儲存基本都是必要的,比如10-20年甚至永久。長期儲存,看似很簡單的事情,實際上有很多問題需要解決。幾百個tb或者pb級的大資料,假設是非活動的歷史資料,採用什麼介質進行儲存?磁碟,磁帶,還是光碟?採用離線還是近線方式?如何監控巨大數量儲存硬體裝置的狀態?採用什麼方法來保證海量資料的完整性?如何發現長期儲存中的問題並修復?需要的時候如何簡便快速地查詢和獲取資料?另外,還需要考慮儲存所占用空間和能耗問題。面對這些問題,我們就會發現大資料長期儲存也是乙個很大的挑戰,一方面需要提高儲存介質的永續性、智慧型性、可靠性等,另一方面需要資訊生命週期管理系統進行完善的管理和監控。

3、資料查詢

資料訪問是儲存系統最基本的功能之一。傳統的資料訪問方式,都是根據檔名來定位和訪問資料。檔名標識具有一定的表意性,但非常不足,很難通過檔名對資料本身的內容和特徵進行理解。這種查詢訪問語義非常差,需要使用者給出準確的檔名,否則就無法進行定位和訪問。隨著檔案數量的不斷增加,它將給使用者對資料的訪問帶來很大的困難。現實世界中,人們主要根據事物的特徵記憶和區分不同的事物,而非簡單的名字。在實際應用中,如果能夠提供基於檔案屬性和內容的資料訪問方式,豐富的語義將會極大地增加資料的表意性,從而大大方便使用者的使用,提高資料訪問效率。internet中,使用者在web 搜尋引擎(如google,baidu)中輸入內容關鍵字就可以查詢到自己想要的資料。資料庫系統中,使用sql 語言查詢記錄,可以指定相關條件對查詢記錄進行篩選。由此可見,與傳統的資料訪問方式相比,基於資料內容和屬性的資料訪問方式具有很強的語義,能有效提高資料定位和訪問效率,可以很大程度上降低使用者的使用複雜性,適合於各種資料儲存系統,尤其是分布式儲存系統。目前,自然語言處理和web語義網路都有了長足的發展,大資料管理中如何能實現基於語義的資料訪問方式,不僅可以提高了查詢效率,而且符合人們的思維模式,能夠提供更加友好的資料訪問介面。

4、綠色歸檔

由於法規遵從或長期儲存的需要,資料根據生命週期管理需要進行歸檔處理,採用方法有磁帶歸檔、磁碟歸檔、光碟歸檔、cas系統歸檔等。大資料資料量大,如果採用磁碟介質進行歸檔,磁碟數量會很多,正常工作下能耗也是相當可觀。為了降低能耗實現綠色歸檔,同時有效延長磁碟使用壽命,需要考慮相關高效儲存技術,包括maid、semiraid、資料壓縮、重複資料刪除、自動精簡配置等。這些技術主要從兩個方面著手,一是精減資料量以減少磁碟介質達到降低能耗的目標,如資料壓縮、重複資料刪除、自動精簡配置,二是控制磁碟介質狀態(高速、低速、停止)或減少活動磁碟數量來實現降低能耗和延長壽命,如maid和semiraid。snia相關組織專門研究綠色儲存技術,包括提到的上述各種技術。

5、統一儲存

大資料種類多,涵蓋了結構化資料、非結構化資料以及物件資料,分別採用資料塊介面、檔案介面和物件介面進行訪問。目前的大多數企業還沒有將三者統一起來,採用不同的儲存系統來管理這三類資料,在大資料快速增長的壓力下,帶來儲存利用效率低、管理複雜性高、成本不斷提公升、資源整合程度低等一系列問題。在這些因素驅動下,統一儲存概念得到復興,san/nas統一儲存得到各大儲存廠商推崇並相繼推出產品,物件儲存也有望被一同整合到統一儲存中。如此一來,就可以使用統一的儲存來管理大資料,統一規劃和整合資源,提高儲存資源利用率,簡化管理和降低總體成本。

6、儲存介質壽命管理

大資料儲存系統具有成千上萬塊磁碟很常見,可能包括fc、sas、sata磁碟,還有可能包括ssd固態硬碟和磁帶等儲存介質。這麼大數量的儲存介質,每天壞上一兩塊盤的概率是非常的,不可控制的故障發生會影響前端大資料應用。儲存介質的使用年限都有標準,可以基於此進行儲存介質壽命管理,結合實際環境進行適當調整,並根據儲存介質執行狀態進行分析和故障**。當儲存介質使用壽命即將到達,或者**到故障即將發生,則主動通知管理員對儲存介質進行更換,之後有系統自動進行資料重建。如此,可以有效降低儲存介質發生故障的隨機性,增強故障的可管理性,再結合人為的排程,就可降低或者避免故障發生對大資料應用的影響。

7、磁帶儲存

一直都有人在**磁帶已死,不過可惜的是,直到目前這個**還沒有成真。相比磁碟,磁帶具有成本、壽命、能耗等特性和優勢,另外磁帶技術本身也在不斷發展,比如新一代lto5的磁帶寫入速度達到180 mb/s,未壓縮容量提公升至1.6tb,保證磁帶仍然是最適合做為長期的資料歸檔儲存之用,這些特性是磁碟所無法取代的。關於磁帶在大資料中的使用,最為典型是做資料歸檔,比如上面談到的長期儲存和綠色歸檔,這裡面的資料基本不會被訪問。另外還有一種形式是分級儲存hsm,磁帶、磁碟、ssd固態硬碟、記憶體形成四級儲存,資料按照活躍程度在不同級別儲存介質之間流動,以實現較高的價效比。hsm中位於磁帶的資料會被訪問,只是頻率和概率非常低。由於磁帶自身的優勢以及不斷發展,它可能不但不會消亡,反而會在大資料時代重獲新生。

斜率優化技巧 換個角度思考

bzoj3437 小p的牧場 試題描述 背景小p是個特麼喜歡玩mc的孩紙。描述小p在mc裡有n個牧場,自西向東呈一字形排列 自西向東用1 n編號 於是他就煩惱了 為了控制這n個牧場,他需要在某些牧場上面建立控制站,每個牧場上只能建立乙個控制站,每個控制站控制的牧場是它所在的牧場一直到它西邊第乙個控制...

換個角度學習

直接去學習某項技術!世間萬物,所有的事兒,如果你從 高視角 看問題,提高自己的看事物的高度,所有的問題將變得簡單明瞭!所謂 會當凌絕頂,一覽眾山小 不識廬山真面目,只緣身在此山中 不管是什麼問題,只要用乙個相對高的角度去看,去梳理,去發現,再複雜的東西都顯得不那麼難!在學習乙個東西時 先知其作用,再...

換個角度思考(牛客4 30 樹狀陣列)

題目鏈結 題目描述 給定乙個序列,有多次詢問,每次查詢區間裡小於等於某個數的元素的個數 即對於詢問 l,r,x l,r,x l,r,x 你需要輸出 i lr a i x sum a i le x i lr ai x 的值 其中 ex p exp exp 是乙個函式,它返回 1 當且僅當 exp 成立...