華為「4V」金字塔打通大資料價值通道

2021-09-05 00:20:10 字數 2832 閱讀 7834

idc**,全球的資料總量將在2023年達到40zb。40zb的資料量到底是多少呢?idc給出了乙個比喻:40zb資料量相當於全球所有沙灘的沙粒總數的57倍。但在如此浩如煙海的資料中,只有不到1%的資料得到了有效分析。資料就像是一座沉睡的寶藏,它需要我們利用大資料這一新架構、新工具,點石成金,變廢為寶。 

大資料由業務驅動

為什麼在官方的健康組織還沒有發布健康趨勢之前,google就能利用它的搜尋引擎準確地**流行病的爆發?大資料給我們所有人上了一課,也讓我們更加堅信,資料本身是有價值的,關鍵看你如何處理、分析和使用它。

雲計算不是一種新的技術,而是一種新的it消費模式。同樣,大資料也不是簡單的技術組合,而是對企業商業模式的顛覆和再造,對業務創新和發展起到強大的推動作用,這樣的例子已經比比皆是。

比如,為了應對激烈的市場競爭,中信銀行信用卡中心迫切需要建立乙個以資料倉儲為核心的分析平台,實現業務資料集中和整合,以支援多樣化和複雜化的資料分析。在部署了大資料應用系統之後,中信銀行信用卡中心實現了近似實時的商業智慧型(bi)和秒級營銷,運營效率得到全面提公升。

再比如,廣東地稅依託大資料平台推出的網路發票能夠實時採集納稅人的開票資料,實時監控納稅人的開票情況,實時向社會公開開票查詢資訊,實時為公眾查驗發票真偽,實現了對納稅人經營行為的全監控。同時,廣東地稅依託大資料平台還實現了對地稅幹部的稅收執法和行政管理進行全程分析監控,有效防控了各類執法和廉政風險。

縱向打穿「4v」

經濟全球化的趨勢促進了大資料的應用需求。企業的管理者需要借助豐富的資料和實時分析工具,提高企業內部的工作效率,同時還要密切與客戶的關係,進一步提高客戶滿意度。商業模式的轉變、營銷手段的豐富,要求企業不能在舊有的基礎架構平台上縫縫補補,大資料需要乙個全新的高效的基礎架構平台。

大資料這個概念出現前,「海量資料」這樣的稱呼人們已經使用了很多年。雖然大資料與海量資料之間還是有量上的差距,但是對於很多企業使用者來說,沒有適合的工具對海量資料進行挖掘是資料價值難以釋放的乙個主要原因。在大資料分析工具出現前,商業智慧型、資料探勘已經進行了多年,為什麼資料的價值沒有得到企業充分的重視呢?因為以前的資料探勘是對抽樣資料進行分析,而且資料分析是離線的,資料的價值沒能得到全面、實時的展現。

那麼構建乙個可用的大資料系統,應該從何處入手呢?

現在,人們已經基本認同了大資料「4v」的特徵:第一,volume表明資料的體量巨大,企業處理的資訊總量已經從tb級別躍公升到pb級別;第二,variety表明資料型別繁多,包括結構化、非結構化等型別的資料,尤其是非結構化資料的大幅增長對傳統的處理結構化資料為主的架構帶來了巨大衝擊;第三,velocity表明實時處理是大資料的乙個典型特徵,而這也正是它區別於傳統資料探勘技術的關鍵所在;第四,value表明資料是有價值的,這也是大資料探勘的最終目標。

「4v」雖然準確地描述出了大資料的基本特點,但是「4v」只是單擺浮擱,並沒有從邏輯的角度將大資料應用的遞進關係明確地展示出來。正是基於此,華為丟擲了金字塔型「4v」理論,展現了從volume到velocity再到variety,最終到value的層次化的遞進式的創造大資料價值的方**。

具體來說,第一步,企業需要建立乙個能夠高效處理海量資料的儲存架構平台,它既能處理大量的小檔案,也能處理單體較大的檔案。第二步,這個儲存架構平台要具備極高的處理效能,因為大資料對實時處理的要求非常高。第三步,這個儲存架構平台要能處理多樣化的資料,包括結構化資料和非結構化資料。只有通過前面三步打下的基礎,企業使用者才能進入最後一步,在乙個高效的專門為大資料構建和優化的平台上進行資料分析和挖掘,並最終獲得所需的價值。

大資料價值的實現過程是乙個遞進的逐層深入的過程,但是建立高效的儲存架構平台是前提,它是大資料落地的基礎。

hadoop不是全部

現在人們一談到大資料,首先會想到hadoop。其實,hadoop只是大資料基礎架構與上層應用分析之間的乙個橋梁,而不是大資料的全部。在廣電等很多領域,大資料處理並不一定要用到hadoop。現在,使用hadoop更多的是一些網際網路企業。然而除了網際網路大資料以外,行業大資料同樣重要,甚至價值密度更高。因此,將hadoop與大資料劃等號,這是乙個認識上的誤區。業內一位大資料專家指出,大資料不是乙個分析工具,而是新的基礎架構。

華為認為,大資料分析的乙個重要前提是,必須先建立乙個高效的大資料儲存平台。那麼,所謂的高效又是如何來衡量的呢?

高效的第乙個衡量指標是就是效能。效能是大資料儲存平台的基石之一,沒有效能的保證,大資料系統無異於空中樓閣。比如,**電視台每晚7:30要準時播出天氣預報,如果氣象分析要經過24小時才能得到最後的結果,就會錯過天氣預報播出的時間,即使得到的**結果再準確也是無用的結果。另外,在智慧型交通領域,交通部門需要掌握實時的路況資訊,對交通違章或其他突發事件進行及時處理。如果後台的大資料採集、處理和分析平台不能在最短的時間內給出結果,那麼智慧型交通也只能是一句空談。其實不僅是在大資料方面,在整個it領域,企業使用者對效能的追求都是無止境的,只不過大資料對實時處理的要求非常高,所以高效能對於大資料來說顯得尤為重要。

其次,大資料強調的是簡化使用,提高效率。如果不具備專業技能和人員,hadoop的實施將非常困難。簡化大資料的使用,其核心是在同乙個平台之上針對資料的全生命週期進行管理,盡量避免異構環境下的資料遷移、資料丟失帶來的風險等。

最後,高效的大資料儲存平台應該採用多位一體的技術架構,即在同乙個系統內,實現儲存、歸檔和分析的所有功能,完成對資料的管理,並提供開放的分析介面,與bi軟體和應用軟體更好地連線,進一步提高查詢效率。此外,在這樣乙個一體化的結構之上,使用者還可以根據業務的情況靈活新增相關的功能模組。華為的大資料儲存平台就具備了上述功能。

大資料帶來的改變從基礎架構層面一直延伸至業務層面。企業的管理者應該意識到,業務的創新需要底層創新的架構來支撐。從業務的角度看,企業的核心訴求是簡化應用,實現可持續發展,提高業務的效率,而這些業務目標的實現必須建立在乙個合理的、高效的架構之上,只有這樣才能更好地發揮it的作用,獲得更大的資料價值。

python 金字塔 Python金字塔

托倫,函式中有幾個小錯誤和乙個邏輯問題print y to a 請注意,此函式生成乙個以z開頭的字串,但您希望將字串以相反的方向連線,而您的另乙個函式print a to y 確實停止了 1位置 例如 還要注意,您需要新增新行字元 n 以獲得一些不錯的輸出。在 我的解決方案是 def print a...

字母金字塔(類同數字金字塔)

問題描述 讓程式要求使用者輸入乙個大寫字母,使用巢狀迴圈產生像下面這樣的金字塔圖案 aaba abcba abcdba abcdecba 演算法分析 每行包括三個部分內容 若干個空格 正序排列的字母 倒序排列的字幕。使用乙個外部迴圈來處理行,在每乙個行中使用三個內部迴圈 乙個處理空格,乙個以公升序列...

數字金字塔

觀察下面的數字金字塔。寫乙個程式來查詢從最高點到底部任意處結束的路徑,使路徑經過數字的和最大。每一步可以走到左下方的點也可以到達右下方的點。7 3 8 8 1 0 2 7 4 4 4 5 2 6 5在上面的樣例中,從7 到 3 到 8 到 7 到 5 的路徑產生了最大 多組輸入資料 第乙個行包含 r...